Séminaire en ligne

(organisé en collaboration avec l’Université de Neuchâtel, Suisse)

Le groupe Enquêtes organise tous les deux mois, en collaboration avec l’Université de Neuchâtel, Suisse un séminaire en ligne francophone sur les sondages d’une durée d’une heure (45 minutes de présentation et 15 minutes de questions-réponses). Chaque séance sera l’occasion de présenter en français des travaux récents et novateurs sur la théorie et la pratique des sondages.

Prochaine séance

Séances précédentes

Jeudi 27 juin à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Philippe Brion (Ex-INSEE et Ministère de l’Agriculture, France)

Titre : Les aspects méthodologiques vus du côté du responsable de production statistique

Résumé : Le responsable d’un dispositif de production statistique est confronté à un ensemble de contraintes lors de la mise en place du dispositif et pendant son déroulement : exigences concernant la qualité du produit à fournir (y compris les délais), coût global pour le contribuable (y compris avec la charge pesant sur les répondants).
Les aspects méthodologiques classiques (échantillonnage, traitement des non réponses, estimateurs à utiliser, calcul de l’erreur d’échantillonnage, etc.) font bien sûr partie de la panoplie des outils sur lesquels des choix doivent être faits, mais ils ne sont pas les seuls. En particulier, une partie du travail de production statistique ne peut être menée de façon algorithmique et demande des interventions manuelles réalisées par des équipes spécialisées, pour la relance des non-répondants ou le contrôle des données ; des arbitrages doivent être menés, au fur et à mesure de l’avancement des opérations, afin de déterminer comment utiliser au mieux les ressources disponibles pour respecter les critères de qualité attendus.
On peut d’ailleurs inscrire ces aspects dans un cadre plus général, incluant également l’entretien d’outils transversaux comme les bases de sondage ; au final, la question posée est celle du « réglage optimal » d’un dispositif global de production, pour lequel on peut agir sur différents paramètres, tout en étant soumis à certaines contraintes.
L’exposé se propose d’illustrer un certain nombre de ces problématiques à partir de l’exemple des statistiques d’entreprises.

Biographie : Philippe Brion a travaillé dans le domaine de la statistique publique française de 1978 à 2015, que ce soit à l’Insee ou au service statistique du Ministère de l’Agriculture. Il a alterné des postes de méthodologue et des postes de responsable de production, sur des sujets variés comme les statistiques agricoles, les statistiques d’entreprises, ou l’appui aux services statistiques des pays en développement.

Jeudi 18 avril à 14h00 (heure de Paris - CET)

Télécharger le support de présentation

Invité : Mehdi Dagdoug, Université McGill, Montréal, Canada

Titre : Apprentissage statistique pour l’échantillonnage en population finie

Résumé : Les modèles prédictifs sont fréquemment incorporés dans les stratégies d’échantillonnage. Quelques exemples d’utilisations incluent les estimateurs basés sur un modèle, les estimateurs assistés par un modèle, ainsi que le traitement de la non-réponse avec notamment l’imputation et la repondération. Aussi, les dernières décennies ont été marquées par une attention croissante de la communauté statistique envers l’apprentissage statistique. Ce domaine a par conséquent connu un essor très important, tant du point de vue théorique que computationnel.
L’apprentissage statistique fournit ainsi de nouveaux outils particulièrement flexibles aux statisticiens d’enquête. Toutefois, cela pose également de nouveaux défis tels que la sélection de modèles et l’estimation de la variance.

Dans ce séminaire, nous présenterons une revue de la littérature concernant l’utilisation des méthodes prédictives en sondage. Leurs propriétés habituelles seront détaillées. Nous discuterons de leurs avantages, ainsi que de leurs limitations. Certaines pistes permettant de contourner ces limitations seront présentées.

Biographie : Mehdi Dagdoug est professeur adjoint à McGill University. Ses sujets de recherche sont à l’intersection entre la théorie des sondages et l’apprentissage statistique, avec notamment un intérêt pour les questions de statistique en grande dimension.

Jeudi 8 février à 14h00 (heure de Paris - CET)

Télécharger le support de présentation : Partie 1 - Partie 2

Invité : Anne-Sophie Charest (Université de Laval, Canada)

Titre : La confidentialité différentielle pour protéger les renseignements personnels

Résumé : La confidentialité différentielle a pour but de permettre l’analyse statistique d’un jeu de données sans révéler les informations personnelles des participants. Pour ce faire, elle mesure formellement l’impact pour un individu d’accepter de faire partie d’un jeu de données à partir duquel seront publiées certaines statistiques. C’est une approche qui gagne en popularité tant chez les chercheurs qu’en pratique, et qui est d’ailleurs utilisée par le Census Bureau pour la publication des données du recensement américain de 2020. Je vous propose ici une introduction peu technique à la confidentialité différentielle, mettant l’accent sur l’interprétation de la mesure et les outils nécessaires à sa mise en œuvre dans différents contextes.

Biographie : Anne-Sophie Charest est une professeure agrégée en statistique au Département de mathématiques et de statistique de l’Université Laval. Elle est titulaire d’un baccalauréat Honours in Probability and Statistics de l’université McGill, à Montréal, ainsi que d’une maîtrise et d’un doctorat en statistique de l’université Carnegie Mellon, à Pittsburgh. Elle travaille sur la protection de la confidentialité de données statistiques. Elle s’intéresse particulièrement à la génération de jeux de données synthétiques ainsi qu’à la méthodologie statistique requise pour analyser de tels jeux de données. Elle travaille également sur la mesure des risques de divulgation de données sensibles, notamment par le biais de la confidentialité différentielle. Professeure Charest est membre du Centre de Recherche en Données Massives et de l’Institut Intelligence et Données de l’Université Laval.

Jeudi 16 novembre à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Jean-François Beaumont (Statistique Canada)

Titre : Inférence à partir d’échantillons non probabilistes

Résumé : Depuis plusieurs décennies, les agences nationales de statistique utilisent les enquêtes probabilistes comme outil privilégié pour répondre aux besoins d’information sur une population d’intérêt. Ces dernières années, un vent de changement s’est fait sentir et d’autres sources de données sont de plus en plus explorées. Cinq facteurs clés sont à l’origine de cette tendance : la baisse des taux de réponse aux enquêtes probabilistes, le coût élevé de la collecte des données, le fardeau accru sur les répondants, le désir d’accéder à des statistiques « en temps réel » et la prolifération de données de sources non probabilistes. Dans cette présentation, on se concentrera sur le scénario où les variables d’intérêt sont observées seulement dans un échantillon non probabiliste. On supposera que l’échantillon non probabiliste contient des variables auxiliaires qui sont également observées dans un échantillon probabiliste. On passera en revue trois approches d'intégration des données des deux échantillons : le calage de l’échantillon non probabiliste, l'appariement statistique et la pondération par l’inverse de la probabilité de participation. On discutera des caractéristiques de chaque approche, y compris leurs avantages et limites, et présentera quelques résultats empiriques.

Biographie : Jean-François Beaumont est Conseiller principal en statistique à Statistique Canada, où il y travaille depuis plus de 25 ans. Il est actuellement rédacteur en chef de la revue Techniques d’enquête (Survey Methodology) et responsable du Programme de recherche et développement de la Direction des méthodes statistiques modernes et de la science des données. Ses récents projets de recherche et applications portent principalement sur l’intégration de données et l’estimation sur petits domaines.

Jeudi 14 septembre à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Anne Ruiz-Gazen (Université Toulouse 1 Capitole)

Titre : Statistique robuste et sondages

Résumé : En population infinie, la statistique robuste fondée par Peter J. Huber et Frank R. Hampel s’intéresse au cas où la distribution des données s’écarte légèrement du modèle supposé. Ce cadre correspond à des données contaminées par des observations atypiques. Dans le cas de l’estimation de paramètres, il existe différentes mesures de sensibilité, telles que la fonction d’influence ou le point de rupture, et il est en général souhaitable que la fonction d’influence d’un estimateur soit bornée et que son point de rupture soit strictement positif.

En population finie, les concepts de robustesse classiques ne sont pas applicables directement et doivent être adaptés. Dans un échantillon, les statisticiens d’enquête distinguent généralement les observations atypiques représentatives, qui peuvent aussi exister dans la population non échantillonnée, des observations atypiques non représentatives qui n’existent que dans l’échantillon ou qui constituent des données erronées. Dans les enquêtes, les observations atypiques non représentatives sont généralement corrigées en amont de l’estimation des paramètres, à l’étape de validation des données d’entrée. Les observations atypiques représentatives en revanche sont traitées à l’étape d’estimation. Les méthodes d’estimation robustes existantes dépendent du type d’inférence considérée, sous le plan de sondage ou sous un modèle de super-population.

Après une introduction rapide à la statistique robuste en population infinie, nous nous intéresserons au problème du traitement des observations atypiques en sondages. Nous présenterons en particulier l’approche par le biais conditionnel qui peut s’interpréter comme une généralisation de la fonction d’influence en population finie.

Biographie : Anne Ruiz-Gazen est professeure des universités en statistique à l’école d’économie de Toulouse. Ses sujets de recherche portent notamment sur la théorie des sondages et la statistique robuste multivariée.

Jeudi 15 juin 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Marc Christine (Ex-Insee, Direction de la méthodologie et de la coordination statistique et internationale)

Titre : De l’observation du revenu déclaré en tranches à la prédiction du vrai revenu fiscal, ou comment estimer un modèle économétrique sans disposer d’observations.

Résumé : Une variable essentielle explicative du comportement des ménages dans de multiples domaines est le revenu du ménage. La difficulté est de disposer d’une observation correcte de cette variable. Lorsque les enquêtes sont échantillonnées dans les bases fiscales, on dispose d’une donnée vraie, le revenu déclaré dans l’IRPP.

Mais certaines enquêtes du service statistique public, plus anciennes, échantillonnées dans les bases issues du recensement de la population ou portant sur des sujets nécessitant des bases de sondage appropriées à la thématique ne permettent pas de disposer de cette information.

Celle-ci est alors collectée dans l’enquête elle-même ou, pour l’Insee, dans le cadre qui l’enserre : le Tronc Commun des Enquêtes Ménages (TCM). Il s’agit alors d’une donnée déclarative.

La donnée ainsi observée est évidemment entachée de plusieurs erreurs ou imperfections qui ne la rendent pas homogène et elle pose des problèmes de cohérence conceptuelle par rapport au vrai revenu fiscal, lequel n’est pas connu au niveau individuel.

Ce séminaire se propose de fournir des solutions théoriques à deux questions :

si l’on dispose de sources fiscales exogènes fournissant la distribution vraie des revenus, peut-on et comment utiliser ces informations pour les incorporer dans le processus de calage des enquêtes qui ne disposeraient que d’un revenu déclaré ?
peut-on, au niveau individuel, à partir de données déclaratives observées sur le revenu, « reconstituer » un revenu vrai au sens du revenu fiscal (supposé inobservable) ? On montrera que la connaissance de la distribution des revenus vrais et de l’observation des revenus déclarés en tranches, permet d’imputer un revenu vrai estimé à chaque unité statistique.

Biographie : Marc Christine est ancien Inspecteur général de l’Insee. Il a travaillé pendant de nombreuses années dans le domaine de la méthodologie statistique et de l’expertise des systèmes et opérations statistiques. Il a été responsable, depuis 2000, de l’organisation des éditions triennales des Journées de méthodologie statistique de l’Insee. En parallèle, il a enseigné la théorie des probabilités à l’Ensae durant plus de trois décennies. Il a également fait divers travaux appliqués ou théoriques en matière de théorie des sondages et participé à des enseignements de cette discipline, en formation académique spécialisée ou continue.

Jeudi 20 avril 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Caren Hasler (Université de Neuchâtel, Suisse)

Titre : Discussion sur la repondération pour la non-réponse : Quand les probabilités de réponse sont estimées par calage ou par maximum de vraisemblance

Résumé : Dans cette présentation, nous discuterons deux alternatives de repondération pour une enquête présentant de la non-réponse totale. La première alternative consiste à estimer les probabilités de réponse par maximum de vraisemblance, la seconde par calage. Pour les deux alternatives, l’inverse des probabilités de réponse estimées sont utilisées pour augmenter le poids des répondants afin de diminuer le biais de non-réponse. Nous présenterons les propriétés des estimateurs ainsi obtenus, montrerons qu’ils sont asymptotiquement sans biais et plus efficaces que l’estimateur qui se base sur les vraies probabilités de réponse. Nous parlerons également de la double robustesse, c’est-à-dire du comportement des estimateurs lorsque le modèle utilisé pour estimer les probabilités de réponse est mal spécifié. Ensuite, nous montrerons les résultats d’une étude par simulations. Enfin, nous conclurons par des remarques générales quant aux méthodes présentées et à des alternatives plus robustes.

Biographie : Caren Hasler, docteur en statistique, est chercheure à l'Université de Neuchâtel, Suisse. Ses intérêts de recherche se portent principalement sur les aspects théoriques et pratiques du traitement de la non-réponse dans les enquêtes.

Jeudi 23 février 2023 à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Guillaume Chauvet (ENSAI)

Titre : Estimation de variance par bootstrap pour des estimations transversales dans le cas d'une enquête à échantillons rotatifs : cas de l'enquête Histoire de Vie et Patrimoine de l'Insee

Co-auteurs : Emmanuel Gros, Olivier Guin et Jean Rubin (Insee)

Résumé : L’Enquête Histoire de Vie et Patrimoine (EHVP) a pour objectif de décrire les actifs financiers, immobiliers et professionnels des ménages ainsi que l’endettement associé. Elle constitue la partie française du Household Finance and Consumption Survey (HFCS), piloté par la Banque Centrale Européenne. Le champ de cette enquête est celui des ménages ordinaires résidant en France.

L’échantillon HVP est constitué à l’aide d’un plan de sondage rotatif, utilisant 4 sous-échantillons tirés et entrés dans le dispositif d’enquête 4 vagues consécutives. Pour chacun de ces 4 sous-échantillons, un échantillon de logements est d’abord tiré dans l’échantillon-maître de l’Insee, obtenu selon un plan de sondage à plusieurs degrés. Les individus des ménages de ces logements sont enquêtés, puis suivis dans le temps et réinterrogés pendant 4 années consécutives, en compensant l’attrition par une méthode de repondération. En régime de croisière, une estimation transversale l’année t est donc obtenue en agrégeant les 4 sous-échantillons d’individus suivis jusqu’au temps t. Comme ces sous-échantillons représentent des populations chevauchantes, la méthode de partage des poids est utilisée pour éviter les problèmes de comptes multiples.

Dans ce travail, nous présenterons brièvement la méthode d’échantillonnage utilisée pour l’enquête HVP, ainsi que la méthode d’estimation retenue utilisant la méthode de partage des poids. Nous expliquerons également comment la méthode du bootstrap avec remise a été utilisée pour produire une estimation de variance pour les estimations transversales.

Biographie : Docteur en Statistique et Habilité à diriger des recherches, Guillaume Chauvet est enseignant-chercheur à l’Ensai et membre de l’UMR-6625 IRMAR. Il s’intéresse aux multiples aspects de la Statistique d’Enquête, incluant les méthodes d’échantillonnage, le traitement de la non-réponse, l’estimation de précision, le traitement de données longitudinales, l’analyse de données d’enquête, ainsi que leur application à des domaines connexes (épidémiologie, foresterie). Il est l’auteur de nombreux articles scientifiques.

Jeudi 15 décembre à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : Camelia Goga (Université de Bourgogne Franche-Comté, France)

Titre : Estimation assisté par modèle dans un cadre à grande dimension pour des données d’enquête

Co-auteurs : La présentation est une synthèse des résultats de plusieurs travaux: Calibration and Partial Calibration on Principal Components when the Number of Auxiliary Variables is Large (avec Hervé Cardot et Muhammad Ahmed Shehzad); Asymptotic efficiency of the calibration estimator in a high-dimensional setting (avec Guillaume Chauvet); Model-assisted estimation in a high-dimensional settings for survey data (avec Mehdi Dagdoug et David Haziza).

Résumé : Dans les enquêtes par sondage, les estimateurs basés sur un modèle sont couramment utilisés pour obtenir des estimateurs efficaces pour des paramètres d’intérêt comme les totaux ou les moyennes. De nos jours, il n’est plus rare d’être confronté à un très grand nombre de variables auxiliaires et les estimateurs assistés par un modèle peuvent être moins efficaces dans ces conditions. Dans cet exposé, je discuterai de l’efficacité asymptotique des estimateurs assistés par un modèle en présence d’un très grand nombre de variables auxiliaires et je montrerai qu'ils peuvent souffrir d'une variabilité supplémentaire dans certaines conditions. Je présenterai également deux techniques pour améliorer l’efficacité de l’estimateur assisté par un modèle dans un contexte de grande dimension: la première est basée sur la réduction de dimension par composantes principales et la deuxième est basée sur la pénalisation de type ridge. La méthodologie est illustrée sur des données réelles de consommation d’électricité de ménages et d'entreprises irlandaises.

Biographie : Camelia Goga est professeur en statistique à l’Université de Franche-Comté. Ses thématiques de recherche portent sur la théorie des sondages, en particulier l’estimation en grande dimension pour des données de type enquête par des méthodes de statistique fonctionnelle, non-paramétrique.

Jeudi 20 octobre à 14h00 (heure de Paris - CET)

Téléchargez le support de présentation

Invité : David Haziza (University of Ottawa, Canada)

Titre : Utilisation des méthodes d’apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes

Co-auteurs : Khaled Larbi (ENSAE, France) and Mehdi Dagdoug (Université de Bourgone Franche Comté, France)

Résumé :

Ces dernières années, l'apprentissage automatique a suscité un intérêt considérable dans les offices nationaux de statistique. Grâce à leur flexibilité et leur bonne performance en termes de prédiction, ces méthodes peuvent s'avérer utiles au stade du traitement de la non-réponse totale. Cependant, dans un contexte de non-réponse totale, nous sommes confrontés à un problème d'estimation plutôt qu'à un problème de prédiction. Notre objectif est d'estimer un paramètre de population finie (par exemple, un total de population) et le modèle de non-réponse le plus prédictif ne conduit pas nécessairement au meilleur estimateur (en termes d'erreur quadratique moyenne) d'un total/moyenne de population. Cette situation est différente de celle que l'on rencontre dans un contexte d'imputation pour la non-réponse partielle où l’on s'attend à ce que l'algorithme le plus prédictif soit performant en termes de biais et d'efficacité. Nous illustrerons ce problème au moyen d’un exemple simulé. De plus, nous présenterons les résultats d’une vaste étude par simulation dont le but est de comparer plusieurs méthodes d’apprentissage automatique en termes de biais et d’efficacité. En plus des procédures d'apprentissage automatique classiques (arbres de régression, forêts aléatoires, boosting, etc.), nous évaluerons la performance de certaines approches d'ensemble qui utilisent différentes procédures d'apprentissage automatique pour produire un ensemble unique de poids ajustés pour la non-réponse.

Biographie : David Haziza est professeur au département de mathématiques et de statistique à l’Université d’Ottawa. Il est également consultant à Statistique Canada. Ses intérêts de recherche portent sur l’inférence en présence de valeurs manquantes, l’inférence en présence de valeurs influentes, les méthodes de ré-échantillonnage et les méthodes d’apprentissage automatique.