Rendez-vous SFdS Méthodes et Logiciels

A NOTER : prochains RDV le 23 janvier 2015 (Données Manquantes) et le 9 avril 2015 (Open Data)

Les logiciels sont un élément incontournable de la statistique, qu'elle soit appliquée (dans l'entreprise ou le secteur public) ou plus académique (recherche scientifique par exemple). Logiciels et recherche théorique ou méthodologique se nourrissent l'un l'autre, il suffit de regarder le nombre de publications qui illustrent leurs résultats par des simulations numériques, et l'intégration en retour dans les logiciels de méthodes innovantes ayant atteint la maturité.

La SFdS propose donc des rencontres qui impliquent les logiciels comme un élément constitutif du savoir statistique. Ainsi, les Rendez-vous SFdS Méthodes et Logiciels ont pour objectifs de :
  • Permettre la rencontre entre les mondes académique, industriel et des éditeurs de logiciels
  • Montrer l'apport des logiciels sur des thématiques variées par :
  • des points de repères sur le thème scientifique abordé
  • une idée du panorama de l'offre logicielle, des axes de développement,
  • des exemples d'applications traitées par différents logiciels
Les Rendez-vous SFdS Méthodes et Logiciels ne sont ni une formation, ni un forum d'utilisateurs, mais un lieu d'échange où se vit une coopération équilibrée entre méthodes et logiciels. Ils s'adressent à toute personne désireuse de découvrir ou mettre à jour ses connaissances sur un sujet donné, et intéressée par l'illustration des méthodes au travers les logiciels.

Ils sont organisés suivant un format de 3 séances annuelles (automne, hiver, printemps) d'une après-midi, autour de thèmes variés.

Cette activité est gratuite mais réservée aux adhérents de la SFdS.

Les Rendez-vous ont lieu à l'Institut Henri Poincaré, 11 rue Pierre et Marie Curie, 75005 Paris.
Accès : RER ligne B station : Luxembourg ; Bus : 21, 27, 38, 82, 84, 85, 89

Contacts : Elisabeth MORAND & François-Xavier JOLLOIS


PROGRAMME 2014-2015


- Séance du 21 octobre 2014 sur Séries temporelles (13h45 - 17h15) (Affiche à télécharger ici)


Les méthodes d'analyses et les solutions logicielles aujourd'hui disponibles permettent de modéliser et de prévoir une très grande diversité de séries temporelles, chroniques ou séries chronologiques. Modèles structurels classiques, famille des modèles ARIMA exploitant les propriétés statistiques de la variable à modéliser, modèles VAR pour les cas multivariés, voire modèles ARCH dans les cas de non linéarité à forte variabilité, autant de solutions pour tout secteur d'activité où ces données indicées sur le temps sont disponibles.

De profils différents, les orateurs nous feront partager leur vision des séries chronologiques, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme
13h30 : Présentation de l’après-midi

13h45 : Panorama des méthodes d’analyses de séries chronologiques, Vincent Lefieux (RTE)
Cet exposé a pour ambition de dresser une cartographie des méthodes statistiques dédiées au traitement des séries temporelles. L'exhaustivité de cette cartographie reste néanmoins un Graal difficilement atteignable, tant les méthodes sont nombreuses et sans cesse renouvelées.

14h45 : Traitement des séries temporelles avec Coheris SPAD, Solène Bienaise (Coheris SPAD)
L’étude des séries temporelles intéresse tous ceux qui désirent décrire, expliquer, contrôler, prévoir des phénomènes évoluant au cours du temps, et ils sont nombreux ! Cependant, si la recherche d’un modèle permettant de traiter au mieux une série temporelle est relativement aisée pour l’expert, elle peut s’avérer compliquée à appréhender pour le néophyte. Dans cet exposé, nous décrirons à travers un exemple les différentes étapes nécessaires à la modélisation d’une série temporelle et nous expliquerons comment le non expert peut lui aussi obtenir un modèle adapté grâce à l’utilisation d’un mode de traitement automatique.

15h15 : Pause

15h50 : Tours de main pour l'analyse des séries temporelles. Illustration sur le trafic passager à l'aéroport de Toulouse-Blagnac, avant et après le 11 septembre 2001, Yves Aragon

16h20 : Les séries chronologiques avec STATISTICA, Florent Lefort (DELL)
Les séries chronologiques permettent d'identifier la nature d'un phénomène représenté par une séquence d'observations et de réaliser des prévisions. Nous verrons à travers un exemple comment identifier la tendance et la partie saisonnière, traiter les valeurs manquantes, calculer les autocorrélations, estimer les paramètres du modèle ARIMA et réaliser des prévisions. Puis, nous comparerons ces résultats avec ceux obtenus par les réseaux de neurones appliqués aux séries chronologiques.

16h50 : A propos d'outils émergents pour l'analyse et la prévision des séries temporelles, Jean-Michel Poggi (Université Paris Descartes & LMO Orsay)
Dans cet exposé destiné à ouvrir la réflexion et la discussion sur les perspectives ouvertes pour l'analyse et la prévision des séries temporelles, on débutera par le résumé d'un travail récent en prévision des séries temporelles non stationnaires mélangeant classification de courbes, estimation non paramétrique dans un cadre fonctionnel et méthodes d'ondelettes. Ensuite, on explorera quelques ressources logicielles associées à ces approches et méthodes nouvelles tout en esquissant l'analyse des évolutions récentes.

17h30 : Clôture

PROGRAMME 2013-2014


- Séance du 9 avril 2014 (13h45 - 17h15) (Affiche à télécharger ici)


Les réseaux bayésiens sont un outil de modélisation probabiliste permettant d’acquérir, de capitaliser et d’exploiter des connaissances. Ils doivent leur nom à l’utilisation d’un réseau dont les nœuds sont les variables d’intérêt, et aux réflexions de Thomas Bayes autour des probabilités conditionnelles. Particulièrement adaptés à la prise en compte de l’incertitude, ils peuvent aussi bien être décrits manuellement par les experts du domaine que générés automatiquement par apprentissage. L’exploitation de ces réseaux permet le diagnostic, l’analyse ou la prise de décision par exemple.

De profils différents, les orateurs nous feront partager leur expérience des réseaux bayésiens, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Cette manifestation est programmée en avant-première du Spring Meeting ENBIS sur le thème Graphical Causality Models: Tree, Bayesian Networks and Big Data. Elle est précédée d’une matinée de deux exposés offrant une large introduction à ce sujet http://springmeeting2014.sfds.asso.fr/

Programme
13h45 : Présentation de l’après-midi

14h00 : Bayesian Belief Networks for Decision Support, Lionel Jouffe (Bayesia)
Bayesian networks have emerged as a new form of probabilistic knowledge representation through the seminal works of Judea Pearl. The theoretical properties of Bayesian networks have been extensively studied over the last 25 years, but only now they are emerging as practical tools for the "deep understanding" of very complex, high-dimensional problem domains. Their computational efficiency and inherently visual structure make Bayesian networks attractive for exploring previously intractable problems. This tutorial will provide an introduction to the wide-ranging applications of Bayesian networks, implemented with the BayesiaLab 5 software platform. Participants do not need to have any prior familiarity with Bayesian networks, as we will start the seminar with several introductory textbook examples. This will include an overview of supervised and unsupervised machine learning algorithms implemented in BayesiaLab 5. Building upon these basics, participants will learn how Bayesian networks can serve as innovative alternatives to traditional modeling techniques.

14h45 : Visualising Posterior MCMC Samples with JMP,  Ian Cox (JMP) PDF
Dynamic visualisation is a key strength of JMP, and can inform and illuminate almost any analysis whatever your larger objectives. In the case of the Bayesian analyses provided by WinBugs, BRugs, PROC MCMC and others, using the interactivity of JMP allows you to quickly assess and summarise the posterior samples obtained from Markov chain methods. This presentation illustrates a JMP add-in that allows you to quickly and easily perform this task once the samples are in JMP, and illustrates its use with posterior samples of forty adverse event treatment parameters from a vaccine trial described in Mehrotra & Heyse (“Use of the False Discovery Rate for Evaluating Clinical Safety Data”, Statistical Methods in Medical Research 13: 227-238, 2004). A second add-in that moves WinBugs output into JMP is also presented. The work was done by Richard C Zink, principal researcher and developer with JMP.

15h15 : Pause

15h45 : Building, handling and using Bayesian networks with R and Bugs,  Jean-Baptiste Denis (INRA) PDF
Bayesian networks [BNs] are a parsimonious and easy to interpret way to define a joint probability distribution over a set of random variables. In a first step we briefly give an intuitive outline of their characteristics, introducing what are topological orderings, DAGs and local distributions. Then we present the three major classes of BNs: discrete, continuous and hybrid ones. From this framework, we give insights about the main R packages dealing with BNs, emphazing the capabilities of /bnlearn/ which is, in our opinion, one of the most versatile. As these packages do not offer many possibilities for hybrid BNs, we also present the BUGS softwares which can be used through some specialized R packages. Although imagined to perform Bayesian statistical analyses, the prior and likelihood distributions are defined with BNs, making them a very convenient and efficient tool for hybrid BNs encompassing a large spectrum of distributions for discrete as well continuous variables.

16h15 : Multiple Quantitative Trait Analysis in Statistical Genetics with Bayesian networks, Marco Scutari (UCL) PDF

16h45 : RESTful Bayesian Networks: The ISM API, Michael Ashcroft (Inatas AB)
An overview of the functionality present in the Inatas System Modeler (ISM) API, through a use study.
We will also discuss the reasons behind providing a RESTful HTTP API and how this can be utilized in distributed and Cloud environments.
The API, the windows GUI and the servlets utilized in this talk are freely available at http://www.inatas.com/downloads/default.php

17h15 : Clôture

- Séance du 16 janvier 2014 (13h30 - 17h30) : Données Massives (Big Data) (Affiche à télécharger ICI)


Les données massives (ou Big Data) se caractérisent par une volumétrie importante, une variété des types de données, et une grande vitesse de génération, souvent en flux tendu. Leur utilisation nécessite donc une (r)évolution dans les méthodes d’acquisition et de traitement analytique. Ainsi, côtoyer les téra-data, dialoguer avec Hadoop, accéder aux données ouvertes (Open Data) ou jongler avec les flux d’information font maintenant partie des compétences nécessaires pour traiter ces données.

De profils différents, les orateurs nous feront partager leur vision des Big Data, par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme :
- Défis pour la fouille de données dans le Big Data (Georges Hébrail, EDF R&D) PDF
- Panorama des solutions analytiques existantes (Julien Damon, Arnaud Laroche, Bluestone) PDF
Comparaison Open-Source vs Commercial sous l’angle des usages (productivité pour l’analyste) et de la couverture fonctionnelle (diversité des méthodes supportées)
- Implémentation et benchmark de solutions en régression linéaire (Anne Gayet, AID) PDF
Implémentation d'une régression linéaire sous hadoop avec rmr2, benchmark des résultats avec des outils alternatifs : RevoScaleR en mode distribué, R et SAS dans une approche traditionnelle
- S'attaquer au Big Data avec Hadoop et l'intégration Open Source (Cédric Carbone, Talend)
- Le Big Data au service du commerce (Joannès Vermorel, Lokad) PDF


- Séance du 3 octobre 2013 (13h30 - 17h30) : Visualisation et Data Mining (Affiche à télécharger ici)


La représentation graphique de données est un thème très actuel, aux multiples facettes.  Qu’il s’agisse de définir de nouvelles formes de visualisation pour permettre au récepteur de comprendre facilement une situation, d’utiliser de nouveaux moyens d’élaboration (via le web par exemple), d’appliquer à de nouveaux domaines d’études, sur des volumétries de plus en plus grandes et des données de moins en moins structurées (big data), le dataviz est en pleine évolution et devient un vrai facteur de compétitivité.

De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’évolution des méthodes de visualisation, en l’éclairant par des applications et des expériences mises en œuvre sur différents logiciels.

Programme
- Nouveaux outils pour la visualisation des données (François-Xavier Jollois, Université Paris Descartes) PDF
- Visualisation interactive de grand jeu de données à la SNCF innovation et recherche (Maguelonne Chandesris, Anaïs Rémy, SNCF)
- Analyse exploratoire de données multivariées par des projections interactives (Michaël Aupetit, CEA) PDF
- SAS et DataViz : tirer parti de la Visualisation du Big Data (Richard Eudes, Grégoire de Lassence, SAS Institute) PDF
- Interactions Hommes-Données (Caroline Goulard, Dataveyes) PDF
- Exploration et analyse visuelle des données avec Tableau (Olivier Bouquin, Tableau Software)

PROGRAMME 2012-2013


- Séance du 11 avril 2013 (13h30 - 17h30) : Analyse de Textes (Affiche à télécharger ici)


Les données informatiques non structurées, dont les textes, envahissent notre quotidien. Depuis les premières applications en analyse automatique du fond et de la forme d’un texte, la puissance de l’outil informatique et la multiplication de données à disposition a permis le développement de méthodes plus complexes permettant d’extraire automatiquement de l’information et du sens d’un grand nombre de données textes : l’analyse textuelle. Les logiciels, en transformant le texte en matériel statistiquement analysable et en mettant à disposition des méthodes d’exploitation de ces données en grand volume, ont ouvert le champ à de nouvelles applications : automatisation de requêtes de recherche, de réponses téléphoniques, mesure de e-réputation, ….
De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’analyse de textes par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.


Programme

- Traitement automatique des langues et statistiques : panorama et problématiques (Cyril Grouin, Limsi, Université Paris Sud) PDF

- Text mining à EDF : choix, méthodes et cas d’usage (Anne-Laure Guénet, EDF)

- L’enrichissement de contenu non structuré au service de l’analyse (Thomas Benatar, Michaël Domanski, TEMIS)

- Approches statistiques et linguistiques pour l’analyse des réclamations clients (Sylvie Jacquet-Faucillon, SAS Institute) PDF

- Classification de textes pour les réseaux sociaux (Pedro Miguel Dias Cardoso, Synthesio)

- Sémantique agile et Semantic Web : de l'extraction de l’information à la capitalisation des connaissances (Frédérik Bilhaut, Noopsis)

- Un outil libre d’analyse textuelle pour R (Milan Bouchet-Valat, INED)

- Séance du 17 janvier 2013 : Méthodes d'arbres (Affiche à télécharger ici)


Les méthodes d'arbres de décision fournissent des règles explicites de décision, aussi bien en classement qu'en régression. Leur popularité vient de leur caractère intuitif et de leur capacité à traiter des données hétérogènes ou manquantes. Depuis les algorithmes implémentés CHAID et CART, les méthodes de bagging, boosting et forêts aléatoires sont venues compléter le panorama.
De profils différents (universitaires, consultants, éditeurs de logiciels,…), les orateurs nous feront partager leur vision des méthodes d'arbres par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme
- Des arbres de décision aux forêts aléatoires : état de l'art (Badih Ghattas, Université de Méditerranée) PDF
- La santé par les arbres : quand et comment utiliser un arbre dans une étude statistique ? (Olivier Decourt, od-datamining) PDF
- Arbres de régression dans un cas d'étude pour la prévention des fissures dans les édifices (Aurélie Urbain, MathWorks)

- Application des forêts aléatoires et boosted trees à la caractérisation d'une tumeur maline (Florence Kussener, JMP, SAS Institute) PDF
- Parallélisation et optimisation pour l'implémentation des méthodes d'arbres dans un logiciel industriel (Julien Blaize, Coheris SPAD ) PDF

Les avantages métiers d'un arbre interactif (Johan Masset, Coheris SPAD)

- Séance du 25 octobre 2012 : Géomarketing (Affiche à télécharger ici)


Le géomarketing permet l'optimisation des réseaux de distribution :
  • Modélisation des zones de chalandise
  • Modélisation du potentiel de point de vente et phénomène de cannibalisation
  • Optimisation du maillage
  • Equilibrage du territoire
Il utilise des méthodes statistiques classiques et des méthodes plus spécifiques, par exemple pour la modélisation des zones de chalandise. Venant d'horizons différents (entreprises, éditeurs de logiciels, université,…), les orateurs définiront les contours du géomarketing et en dresseront un panorama par la présentation de méthodes, d'applications et d'expériences mises en œuvre sur différents logiciels.