Rendez-vous SFdS Méthodes et Logiciels

A NOTER : prochains RDV le 3 octobre 2013, le 16 janvier 2014 et le 9 avril 2014 !!!

Les logiciels sont un élément incontournable de la statistique, qu'elle soit appliquée (dans l'entreprise ou le secteur public) ou plus académique (recherche scientifique par exemple). Logiciels et recherche théorique ou méthodologique se nourrissent l'un l'autre, il suffit de regarder le nombre de publications qui illustrent leurs résultats par des simulations numériques, et l'intégration en retour dans les logiciels de méthodes innovantes ayant atteint la maturité.

La SFdS propose donc des rencontres qui impliquent les logiciels comme un élément constitutif du savoir statistique. Ainsi, les Rendez-vous SFdS Méthodes et Logiciels ont pour objectifs de :
  • Permettre la rencontre entre les mondes académique, industriel et des éditeurs de logiciels
  • Montrer l'apport des logiciels sur des thématiques variées par :
  • des points de repères sur le thème scientifique abordé
  • une idée du panorama de l'offre logicielle, des axes de développement,
  • des exemples d'applications traitées par différents logiciels
Les Rendez-vous SFdS Méthodes et Logiciels ne sont ni une formation, ni un forum d'utilisateurs, mais un lieu d'échange où se vit une coopération équilibrée entre méthodes et logiciels. Ils s'adressent à toute personne désireuse de découvrir ou mettre à jour ses connaissances sur un sujet donné, et intéressée par l'illustration des méthodes au travers les logiciels.

Ils sont organisés suivant un format de 3 séances annuelles (automne, hiver, printemps) d'une après-midi, autour de thèmes variés.

Cette activité est gratuite mais réservée aux adhérents de la SFdS.

Les Rendez-vous ont lieu à l'Institut Henri Poincaré, 11 rue Pierre et Marie Curie, 75005 Paris.
Accès : RER ligne B station : Luxembourg ; Bus : 21, 27, 38, 82, 84, 85, 89

Contacts : Christine KERIBIN & Elisabeth MORAND


PROGRAMME 2012-2013



- Séance du 11 avril 2013 (13h30 - 17h30) : Analyse de Textes (Affiche à télécharger ici)


Les données informatiques non structurées, dont les textes, envahissent notre quotidien. Depuis les premières applications en analyse automatique du fond et de la forme d’un texte, la puissance de l’outil informatique et la multiplication de données à disposition a permis le développement de méthodes plus complexes permettant d’extraire automatiquement de l’information et du sens d’un grand nombre de données textes : l’analyse textuelle. Les logiciels, en transformant le texte en matériel statistiquement analysable et en mettant à disposition des méthodes d’exploitation de ces données en grand volume, ont ouvert le champ à de nouvelles applications : automatisation de requêtes de recherche, de réponses téléphoniques, mesure de e-réputation, ….

De profils différents (universitaire, chef de projet, éditeur de logiciels,…), les orateurs nous feront partager leur vision de l’analyse de textes par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.


Programme

13h30 : Présentation de l’après-midi

13h45 : Traitement automatique des langues et statistiques : panorama et problématiques (Cyril Grouin, Limsi, Université Paris Sud) PDF

14h30 : Text mining à EDF : choix, méthodes et cas d’usage (Anne-Laure Guénet, EDF)

15h00 : L’enrichissement de contenu non structuré au service de l’analyse (Thomas Benatar, Michaël Domanski, TEMIS)

15h20 : Pause

15h45 : Approches statistiques et linguistiques pour l’analyse des réclamations clients (Sylvie Jacquet-Faucillon, SAS Institute) PDF
Comment industrialiser l’analyse des réclamations clients : collecter et explorer de large volumétries de données textuelles multilingues, structurer les signaux perçus, enrichir les modèles prédictifs (scores d’appétence, d’attrition …) en combinant les données textuelles et les données déjà structurées ? Quel est l’apport d’une approche combinant les méthodes de Traitement du Langage Naturel, de Data Mining, et de Text Mining ?Comment la mise en œuvre des techniques de modélisation descriptives et prédictives, permet de mettre en évidence des tendances, des ressentis, des thématiques cachées dans les textes, d’identifier des problèmes émergents et de catégoriser les réclamations clients afin d’enrichir les systèmes opérationnels ?

16h15 : Classification de textes pour les réseaux sociaux (Pedro Miguel Dias Cardoso, Synthesio)

16h45 : Sémantique agile et Semantic Web : de l'extraction de l’information à la capitalisation
des connaissances (Frédérik Bilhaut, Noopsis)

17h15 : Un outil libre d’analyse textuelle pour R (Milan Bouchet-Valat, INED)

17h30 : Clôture


- Séance du 17 janvier 2013 : Méthodes d'arbres (Affiche à télécharger ici)


Les méthodes d'arbres de décision fournissent des règles explicites de décision, aussi bien en classement qu'en régression. Leur popularité vient de leur caractère intuitif et de leur capacité à traiter des données hétérogènes ou manquantes. Depuis les algorithmes implémentés CHAID et CART, les méthodes de bagging, boosting et forêts aléatoires sont venues compléter le panorama.

De profils différents (universitaires, consultants, éditeurs de logiciels,…), les orateurs nous feront partager leur vision des méthodes d'arbres par la présentation de méthodes, d’applications et d’expériences mises en œuvre sur différents logiciels.

Programme
13h30 : Présentation de l’après-midi
13h45 : Des arbres de décision aux forêts aléatoires : état de l'art (Badih Ghattas, Université de Méditerranée) PDF
14h30 : La santé par les arbres : quand et comment utiliser un arbre dans une étude statistique ? (Olivier Decourt, od-datamining) PDF
A partir de cas réels et de retours d’expérience, quels sont les contextes permettant d’utiliser des arbres de décision ou de régression ? Est-il nécessaire d’utiliser des algorithmes combinés (bagging, boosting, forêts aléatoires) et est-ce toujours gagnant ? Quel est l’intérêt d’un modèle d’arbre par rapport à d’autres modélisations (régression, analyse discriminante, GAM) ? Pour répondre à ces questions, des exemples, des cas pratiques, des résultats chiffrés, une expérience de consultant.
15h00 : Arbres de régression dans un cas d'étude pour la prévention des fissures dans les édifices (Aurélie Urbain, MathWorks)
15h30 : Pause
16h00 : Application des forêts aléatoires et boosted trees à la caractérisation d'une tumeur maline (Florence Kussener, JMP, SAS Institute) PDF
Tout modèle prédictif apporte de l'information sur l'influence des facteurs. C'est notamment le cas des forêts aléatoires et des boosted trees. Une comparaison de ces différents modèles sur des données de tumeurs du sein permettront de comprendre d'avantage la caractérisation d'une tumeur maline ainsi que de créer le modèle le plus prédictif et le plus généralisable possible.
16h30 : Parallélisation et optimisation pour l'implémentation des méthodes d'arbres dans un logiciel industriel (Julien Blaize, Coheris SPAD ) PDF
16h45 : Les avantages métiers d'un arbre interactif (Johan Masset, Coheris SPAD)
17h00 : Synthèse
17h30 : Clôture

- Séance du 25 octobre 2012 : Géomarketing (Affiche à télécharger ici)


Le géomarketing permet l'optimisation des réseaux de distribution :
  • Modélisation des zones de chalandise
  • Modélisation du potentiel de point de vente et phénomène de cannibalisation
  • Optimisation du maillage
  • Equilibrage du territoire
Il utilise des méthodes statistiques classiques et des méthodes plus spécifiques, par exemple pour la modélisation des zones de chalandise. Venant d'horizons différents (entreprises, éditeurs de logiciels, université,…), les orateurs définiront les contours du géomarketing et en dresseront un panorama par la présentation de méthodes, d'applications et d'expériences mises en œuvre sur différents logiciels.