Les médias traitent d'une multitude de sujets d'actualité où la Statistique est largement impliquée. Cependant, dans de trop nombreux cas, il n'est pas facile d'identifier ce rôle central de notre discipline par des non experts, ainsi que ses implications au sens large. Cet état est préjudiciable au rayonnement légitime de la Statistique puisqu'elle est, de fait, mal identifiée par le grand public, les décideurs publics, les entrepreneurs, etc.
MédiaStat correspond à une initiative de la SFdS visant à apporter un éclairage de statisticien.ne.s sur un sujet d'actualité ciblé, extrait du flot médiatique.
Les Groupes Spécialisés (GS) ainsi que les membres du Conseil de la SFdS sont des contributeurs privilégiés pour MédiaStat mais chaque membre de la SFdS doit se sentir libre d'y contribuer également en écrivant à la Cellule Communication de la SFdS.
Ce mois-ci, il est question des Large Language Models ou LLM, ces grands modèles de langage étant régulièrement sur le devant de la scène médiatique car emblématiques des méthodes d'intelligence artificielle générative.
Très bonne lecture !
Contact : Cellule Communication de la SFdS »
*****
MédiaStat n° 6 (juillet 2025)
Modèles de langages : entre fantasmes et hallucinations
L'actualité concernant les LLM (grands modèles de langage) ou autres modèles d'IA générative est foisonnante, c'est pourquoi il est plus que jamais essentiel de porter un oeil scientifique, et donc dépassionné, sur ces outils qui impactent déjà notre société. Cette brève vise à témoigner de cette actualité galopante.
La Plate-Forme nationale sur l'IA (PFIA 2025) s'est tenue début juillet à Dijon. Pendant une semaine se sont déroulées en parallèle neuf conférences hébergées ainsi que dix journées thématiques, pour un total de plus de 280 communications scientifiques sur l'IA. Dans tout cet ensemble, on compte près d'une quarantaine de travaux faisant référence aux LLM au sens large et au lien que l'on peut construire avec les systèmes multi-agents, la planification, la prise de décision, les applications industrielles ou encore l'apprentissage machine. Cette dynamique se retrouve également dans d'autres conférences nationales telles que les JdS et EGC. Ce mouvement est aussi bien visible au niveau international, comme le retracent, par exemple, les publications accessibles sur Scholar : 250 références aux « Large language models » en 2019, puis 400 en 2020, 800 en 2021, près de 2000 en 2022, près de 20000 en 2023, et plus de 70000 en 2024.
L'État a par ailleurs créé, début 2025, l'institut national pour l'évaluation et la sécurité de IA (INESIA), afin de favoriser un développement maîtrisé de l'IA de confiance et de sécurité. La création d'un tel institut s'inscrit dans un mouvement international, de nombreux instituts dits "AISI" (AI Safety Institute) ayant vu le jour depuis fin 2023. C'est dans ce cadre que les 1ères journées scientifiques INESIA se sont tenues à Inria Paris les 8 et 9 juillet dernier, regroupant plus de 200 participants de différents organismes de recherche et de plusieurs entreprises, et abordant l'ensemble des thèmes, très variés, relatifs à l'évaluation de l'IA : IA formelle, IA explicable, détection de contenus générés par l'IA, biais et robustesse de l'IA, régulation de l'IA ...
Ainsi, après une phase de dénis stériles ou de défis fanfaronnant, les chercheurs en IA se mettent à observer, à jauger et à tirer parti de ces nouveaux modèles, avec parfois une certaine méfiance vis-à-vis d'outils développés par des sociétés privées. Le chemin visant à l'insertion de l'IA générative dans tous les champs de la recherche se met en place. Par conséquent, l'espace semble se rétrécir entre, d'une part, les fantasmes des chefs d'entreprise soucieux de dénicher les opportunités de marché et, d'autre part, les hallucinations que l'on prête à la production de ces modèles.
Le sens va-t-il devenir un domaine accessible aux machines ? L'Histoire du traitement automatique des langues s'est forgée sur la syntaxe, la grammaire et les dictionnaires ... aujourd'hui, une voie nouvelle semble se construire sur les tokens, les probabilités et les prompts.
Les Présidents des sociétés savantes Association française pour l’Intelligence Artificielle (AfIA), Association Internationale Francophone d'Extraction et de Gestion des Connaissances (Association EGC), Société Francophone de Classification (SFC), Société Française de Statistique (SFdS) et Société Savante Francophone d'Apprentissage Machine (SSFAM) |