Rendez-vous SFdS Méthodes et Logiciels

Les logiciels sont un élément incontournable de la statistique, qu'elle soit appliquée (dans l'entreprise ou le secteur public) ou plus académique (recherche scientifique par exemple). Logiciels et recherche théorique ou méthodologique se nourrissent l'un l'autre, il suffit de regarder le nombre de publications qui illustrent leurs résultats par des simulations numériques, et l'intégration en retour dans les logiciels de méthodes innovantes ayant atteint la maturité.

La SFdS propose donc des rencontres qui impliquent les logiciels comme un élément constitutif du savoir statistique. Ainsi, les Rendez-vous SFdS Méthodes et Logiciels ont pour objectifs de :
  • Permettre la rencontre entre les mondes académique, industriel et des éditeurs de logiciels
  • Montrer l'apport des logiciels sur des thématiques variées par :
  • des points de repères sur le thème scientifique abordé
  • une idée du panorama de l'offre logicielle, des axes de développement,
  • des exemples d'applications traitées par différents logiciels
Les Rendez-vous SFdS Méthodes et Logiciels ne sont ni une formation, ni un forum d'utilisateurs, mais un lieu d'échange où se vit une coopération équilibrée entre méthodes et logiciels. Ils s'adressent à toute personne désireuse de découvrir ou mettre à jour ses connaissances sur un sujet donné, et intéressée par l'illustration des méthodes au travers les logiciels.

Ils sont organisés suivant un format de 3 séances annuelles (automne, hiver, printemps) d'une après-midi, autour de thèmes variés.

Cette activité est gratuite mais réservée aux adhérents de la SFdS.

Les Rendez-vous ont lieu à l'Institut Henri Poincaré, 11 rue Pierre et Marie Curie, 75005 Paris.
Accès : RER ligne B station : Luxembourg ; Bus : 21, 27, 38, 82, 84, 85, 89

Contacts : Christine KERIBIN & Elisabeth MORAND


PROGRAMME 2013-2014


- Séance du 9 avril 2014 (13h45 - 17h15) (Affiche à télécharger ici)


Les réseaux bayésiens sont un outil de modélisation probabiliste permettant d’acquérir, de capitaliser et d’exploiter des connaissances. Ils doivent leur nom à l’utilisation d’un réseau dont les nœuds sont les variables d’intérêt, et aux réflexions de Thomas Bayes autour des probabilités conditionnelles. Particulièrement adaptés à la prise en compte de l’incertitude, ils peuvent aussi bien être décrits manuellement par les experts du domaine que générés automatiquement par apprentissage. L’exploitation de ces réseaux permet le diagnostic, l’analyse ou la prise de décision par exemple.

De profils différents, les orateurs nous feront partager leur expérience des réseaux bayésiens, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Cette manifestation est programmée en avant-première du Spring Meeting ENBIS sur le thème Graphical Causality Models: Tree, Bayesian Networks and Big Data. Elle est précédée d’une matinée de deux exposés offrant une large introduction à ce sujet http://springmeeting2014.sfds.asso.fr/

Programme
13h45 : Présentation de l’après-midi

14h00 : Bayesian Belief Networks for Decision Support, Lionel Jouffe (Bayesia)
Bayesian networks have emerged as a new form of probabilistic knowledge representation through the seminal works of Judea Pearl. The theoretical properties of Bayesian networks have been extensively studied over the last 25 years, but only now they are emerging as practical tools for the "deep understanding" of very complex, high-dimensional problem domains. Their computational efficiency and inherently visual structure make Bayesian networks attractive for exploring previously intractable problems. This tutorial will provide an introduction to the wide-ranging applications of Bayesian networks, implemented with the BayesiaLab 5 software platform. Participants do not need to have any prior familiarity with Bayesian networks, as we will start the seminar with several introductory textbook examples. This will include an overview of supervised and unsupervised machine learning algorithms implemented in BayesiaLab 5. Building upon these basics, participants will learn how Bayesian networks can serve as innovative alternatives to traditional modeling techniques.

14h45 : Visualising Posterior MCMC Samples with JMP,  Ian Cox (JMP) PDF
Dynamic visualisation is a key strength of JMP, and can inform and illuminate almost any analysis whatever your larger objectives. In the case of the Bayesian analyses provided by WinBugs, BRugs, PROC MCMC and others, using the interactivity of JMP allows you to quickly assess and summarise the posterior samples obtained from Markov chain methods. This presentation illustrates a JMP add-in that allows you to quickly and easily perform this task once the samples are in JMP, and illustrates its use with posterior samples of forty adverse event treatment parameters from a vaccine trial described in Mehrotra & Heyse (“Use of the False Discovery Rate for Evaluating Clinical Safety Data”, Statistical Methods in Medical Research 13: 227-238, 2004). A second add-in that moves WinBugs output into JMP is also presented. The work was done by Richard C Zink, principal researcher and developer with JMP.

15h15 : Pause

15h45 : Building, handling and using Bayesian networks with R and Bugs,  Jean-Baptiste Denis (INRA) PDF
Bayesian networks [BNs] are a parsimonious and easy to interpret way to define a joint probability distribution over a set of random variables. In a first step we briefly give an intuitive outline of their characteristics, introducing what are topological orderings, DAGs and local distributions. Then we present the three major classes of BNs: discrete, continuous and hybrid ones. From this framework, we give insights about the main R packages dealing with BNs, emphazing the capabilities of /bnlearn/ which is, in our opinion, one of the most versatile. As these packages do not offer many possibilities for hybrid BNs, we also present the BUGS softwares which can be used through some specialized R packages. Although imagined to perform Bayesian statistical analyses, the prior and likelihood distributions are defined with BNs, making them a very convenient and efficient tool for hybrid BNs encompassing a large spectrum of distributions for discrete as well continuous variables.

16h15 : Multiple Quantitative Trait Analysis in Statistical Genetics with Bayesian networks, Marco Scutari (UCL) PDF

16h45 : RESTful Bayesian Networks: The ISM API, Michael Ashcroft (Inatas AB)
An overview of the functionality present in the Inatas System Modeler (ISM) API, through a use study.
We will also discuss the reasons behind providing a RESTful HTTP API and how this can be utilized in distributed and Cloud environments.
The API, the windows GUI and the servlets utilized in this talk are freely available at http://www.inatas.com/downloads/default.php

17h15 : Clôture

- Séance du 16 janvier 2014 (13h30 - 17h30) : Données Massives (Big Data) (Affiche à télécharger ICI)


Les données massives (ou Big Data) se caractérisent par une volumétrie importante, une variété des types de données, et une grande vitesse de génération, souvent en flux tendu. Leur utilisation nécessite donc une (r)évolution dans les méthodes d’acquisition et de traitement analytique. Ainsi, côtoyer les téra-data, dialoguer avec Hadoop, accéder aux données ouvertes (Open Data) ou jongler avec les flux d’information font maintenant partie des compétences nécessaires pour traiter ces données.

De profils différents, les orateurs nous feront partager leur vision des Big Data, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme :
- Défis pour la fouille de données dans le Big Data (Georges Hébrail, EDF R&D) PDF
- Panorama des solutions analytiques existantes (Julien Damon, Arnaud Laroche, Bluestone) PDF
Comparaison Open-Source vs Commercial sous l’angle des usages (productivité pour l’analyste) et de la couverture fonctionnelle (diversité des méthodes supportées)
- Implémentation et benchmark de solutions en régression linéaire (Anne Gayet, AID) PDF
Implémentation d'une régression linéaire sous hadoop avec rmr2, benchmark des résultats avec des outils alternatifs : RevoScaleR en mode distribué, R et SAS dans une approche traditionnelle
- S'attaquer au Big Data avec Hadoop et l'intégration Open Source (Cédric Carbone, Talend)
- Le Big Data au service du commerce (Joannès Vermorel, Lokad) PDF


- Séance du 3 octobre 2013 (13h30 - 17h30) : Visualisation et Data Mining (Affiche à télécharger ici)


La représentation graphique de données est un thème très actuel, aux multiples facettes.  Qu’il s’agisse de définir de nouvelles formes de visualisation pour permettre au récepteur de comprendre facilement une situation, d’utiliser de nouveaux moyens d’élaboration (via le web par exemple), d’appliquer à de nouveaux domaines d’études, sur des volumétries de plus en plus grandes et des données de moins en moins structurées (big data), le dataviz est en pleine évolution et devient un vrai facteur de compétitivité.

De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’évolution des méthodes de visualisation, en l’éclairant par des applications et des expériences mises en œuvre sur différents logiciels.

Programme
- Nouveaux outils pour la visualisation des données (François-Xavier Jollois, Université Paris Descartes) PDF
Depuis longtemps, les aspects de visualisation sont utiles pour décrire des situations, des événements ou tout autre aspect du monde qui nous entoure. Dernièrement, nous avons vu apparaître un grand nombre d’outils disponibles en ligne pour permettre la réalisation de graphiques, voire d’infographies. Parallèlement, un grand nombre de personnes se sont mises à produire des visualisations sur des domaines très varies : socio-économie, éducation, environnement, loisirs, ... Nous arborerons dans l’exposé ces nouveaux outils et leurs usages, dans lesquels la statistique a toute sa place.
- Visualisation interactive de grand jeu de données à la SNCF innovation et recherche (Maguelonne Chandesris, Anaïs Rémy, SNCF)
- Analyse exploratoire de données multivariées par des projections interactives (Michaël Aupetit, CEA) PDF
Les projections non linéaires de type Multidimensional Scaling ont été développées pour l'analyse exploratoire de données multivariées. Basées sur la préservation des similarités, elles permettent de représenter des données de grande dimension sous forme de nuage de points dans le plan. L'analyste espère que les groupes de points ou les points atypiques ainsi observés soient le reflet de structures réellement présentes dans les données initiales. Malheureusement, ces projections présentent des distorsions qui les rendent difficiles voire impossibles à interpréter. Dans cet exposé je présenterai les distorsions typiques, et plusieurs techniques de visualisation interactive qui permettent de les détecter et de s'en affranchir afin d'exploiter au mieux ces projections.
- SAS et DataViz : tirer parti de la Visualisation du Big Data (Richard Eudes, Grégoire de Lassence, SAS Institute) PDF
Si les problématiques de visualisation de données ne sont pas nouvelles, la valorisation rapide de gigantesques quantités de données devient un enjeu majeur pour la résolution de problématiques complexes des entreprises. A travers la DataViz, l’autonomie donnée aux utilisateurs métiers permet aux directions informatiques comme aux équipes statistiques de se dégager des contraintes liées aux foules de requêtes d’accès à l’information comme de celles du reporting.
Les utilisateurs, tous profils confondus, peuvent désormais explorer visuellement le « Big Data », exécuter les premières phases exploratoires sur plusieurs milliards de données en quelques secondes et ainsi mieux appréhender la signification des données. Cette démocratisation des premières étapes de l’analytique constituera dès lors une des premières phases de revalorisation des métiers de la statistique, en les affranchissant des contraintes de la « Business Intelligence ».

L’utilisation de SAS Visual Analytics démontrera cette démocratisation des techniques d’exploration et d’analyse des données, initiant les véritables enjeux de l’entreprise liés à l’industrialisation de l’Analytique.
- Interactions Hommes-Données (Caroline Goulard, Dataveyes) PDF
Les données sont de plus en plus présentes dans notre environnement. Elles introduisent de nouveaux usages et transforment notre rapport à l'information. Dans ce contexte, les interfaces de visualisation de données jouent le rôle de médiateur, pour permettre au public non expert de tirer le meilleur des données


- Exploration et analyse visuelle des données avec Tableau (Olivier Bouquin, Tableau Software)

PROGRAMME 2012-2013


- Séance du 11 avril 2013 (13h30 - 17h30) : Analyse de Textes (Affiche à télécharger ici)


Les données informatiques non structurées, dont les textes, envahissent notre quotidien. Depuis les premières applications en analyse automatique du fond et de la forme d’un texte, la puissance de l’outil informatique et la multiplication de données à disposition a permis le développement de méthodes plus complexes permettant d’extraire automatiquement de l’information et du sens d’un grand nombre de données textes : l’analyse textuelle. Les logiciels, en transformant le texte en matériel statistiquement analysable et en mettant à disposition des méthodes d’exploitation de ces données en grand volume, ont ouvert le champ à de nouvelles applications : automatisation de requêtes de recherche, de réponses téléphoniques, mesure de e-réputation, ….
De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’analyse de textes par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.


Programme

- Traitement automatique des langues et statistiques : panorama et problématiques (Cyril Grouin, Limsi, Université Paris Sud) PDF

- Text mining à EDF : choix, méthodes et cas d’usage (Anne-Laure Guénet, EDF)

- L’enrichissement de contenu non structuré au service de l’analyse (Thomas Benatar, Michaël Domanski, TEMIS)

- Approches statistiques et linguistiques pour l’analyse des réclamations clients (Sylvie Jacquet-Faucillon, SAS Institute) PDF

- Classification de textes pour les réseaux sociaux (Pedro Miguel Dias Cardoso, Synthesio)

- Sémantique agile et Semantic Web : de l'extraction de l’information à la capitalisation des connaissances (Frédérik Bilhaut, Noopsis)

- Un outil libre d’analyse textuelle pour R (Milan Bouchet-Valat, INED)

- Séance du 17 janvier 2013 : Méthodes d'arbres (Affiche à télécharger ici)


Les méthodes d'arbres de décision fournissent des règles explicites de décision, aussi bien en classement qu'en régression. Leur popularité vient de leur caractère intuitif et de leur capacité à traiter des données hétérogènes ou manquantes. Depuis les algorithmes implémentés CHAID et CART, les méthodes de bagging, boosting et forêts aléatoires sont venues compléter le panorama.
De profils différents (universitaires, consultants, éditeurs de logiciels,…), les orateurs nous feront partager leur vision des méthodes d'arbres par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme
- Des arbres de décision aux forêts aléatoires : état de l'art (Badih Ghattas, Université de Méditerranée) PDF
- La santé par les arbres : quand et comment utiliser un arbre dans une étude statistique ? (Olivier Decourt, od-datamining) PDF
- Arbres de régression dans un cas d'étude pour la prévention des fissures dans les édifices (Aurélie Urbain, MathWorks)

- Application des forêts aléatoires et boosted trees à la caractérisation d'une tumeur maline (Florence Kussener, JMP, SAS Institute) PDF
- Parallélisation et optimisation pour l'implémentation des méthodes d'arbres dans un logiciel industriel (Julien Blaize, Coheris SPAD ) PDF

Les avantages métiers d'un arbre interactif (Johan Masset, Coheris SPAD)

- Séance du 25 octobre 2012 : Géomarketing (Affiche à télécharger ici)


Le géomarketing permet l'optimisation des réseaux de distribution :
  • Modélisation des zones de chalandise
  • Modélisation du potentiel de point de vente et phénomène de cannibalisation
  • Optimisation du maillage
  • Equilibrage du territoire
Il utilise des méthodes statistiques classiques et des méthodes plus spécifiques, par exemple pour la modélisation des zones de chalandise. Venant d'horizons différents (entreprises, éditeurs de logiciels, université,…), les orateurs définiront les contours du géomarketing et en dresseront un panorama par la présentation de méthodes, d'applications et d'expériences mises en œuvre sur différents logiciels.