Séminaire en ligne
(organisé en collaboration avec l’Université de Neuchâtel, Suisse)
Le groupe Enquêtes, Modèles et Applications organise tous les deux mois, en collaboration avec l’Université de Neuchâtel, Suisse un séminaire en ligne francophone sur les sondages d’une durée d’une heure (45 minutes de présentation et 15 minutes de questions-réponses). Chaque séance sera l’occasion de présenter en français des travaux récents et novateurs sur la théorie et la pratique des sondages.
Prochaine séance
Jeudi 15 juin 2023 à 14h00 (heure de Paris - CET)
Lien Webex de participation - #Webex 2742 522 3133 / Mot de passe gkMTJVXd733 (45685893)
Invité : Marc Christine (Ex-Insee, Direction de la méthodologie et de la coordination statistique et internationale)
Titre : De l’observation du revenu déclaré en tranches à la prédiction du vrai revenu fiscal, ou comment estimer un modèle économétrique sans disposer d’observations.
Résumé : Une variable essentielle explicative du comportement des ménages dans de multiples domaines est le revenu du ménage. La difficulté est de disposer d’une observation correcte de cette variable. Lorsque les enquêtes sont échantillonnées dans les bases fiscales, on dispose d’une donnée vraie, le revenu déclaré dans l’IRPP.
Mais certaines enquêtes du service statistique public, plus anciennes, échantillonnées dans les bases issues du recensement de la population ou portant sur des sujets nécessitant des bases de sondage appropriées à la thématique ne permettent pas de disposer de cette information.
Celle-ci est alors collectée dans l’enquête elle-même ou, pour l’Insee, dans le cadre qui l’enserre : le Tronc Commun des Enquêtes Ménages (TCM). Il s’agit alors d’une donnée déclarative.
La donnée ainsi observée est évidemment entachée de plusieurs erreurs ou imperfections qui ne la rendent pas homogène et elle pose des problèmes de cohérence conceptuelle par rapport au vrai revenu fiscal, lequel n’est pas connu au niveau individuel.
Ce séminaire se propose de fournir des solutions théoriques à deux questions :
- si l’on dispose de sources fiscales exogènes fournissant la distribution vraie des revenus, peut-on et comment utiliser ces informations pour les incorporer dans le processus de calage des enquêtes qui ne disposeraient que d’un revenu déclaré ?
- peut-on, au niveau individuel, à partir de données déclaratives observées sur le revenu, « reconstituer » un revenu vrai au sens du revenu fiscal (supposé inobservable) ? On montrera que la connaissance de la distribution des revenus vrais et de l’observation des revenus déclarés en tranches, permet d’imputer un revenu vrai estimé à chaque unité statistique.
Biographie : Marc Christine est ancien Inspecteur général de l’Insee. Il a travaillé pendant de nombreuses années dans le domaine de la méthodologie statistique et de l’expertise des systèmes et opérations statistiques. Il a été responsable, depuis 2000, de l’organisation des éditions triennales des Journées de méthodologie statistique de l’Insee. En parallèle, il a enseigné la théorie des probabilités à l’Ensae durant plus de trois décennies. Il a également fait divers travaux appliqués ou théoriques en matière de théorie des sondages et participé à des enseignements de cette discipline, en formation académique spécialisée ou continue.
Séances précédentes
Jeudi 20 avril 2023 à 14h00 (heure de Paris - CET)
Invité : Caren Hasler (Université de Neuchâtel, Suisse)
Titre : Discussion sur la repondération pour la non-réponse : Quand les probabilités de réponse sont estimées par calage ou par maximum de vraisemblance
Résumé : Dans cette présentation, nous discuterons deux alternatives de repondération pour une enquête présentant de la non-réponse totale. La première alternative consiste à estimer les probabilités de réponse par maximum de vraisemblance, la seconde par calage. Pour les deux alternatives, l’inverse des probabilités de réponse estimées sont utilisées pour augmenter le poids des répondants afin de diminuer le biais de non-réponse. Nous présenterons les propriétés des estimateurs ainsi obtenus, montrerons qu’ils sont asymptotiquement sans biais et plus efficaces que l’estimateur qui se base sur les vraies probabilités de réponse. Nous parlerons également de la double robustesse, c’est-à-dire du comportement des estimateurs lorsque le modèle utilisé pour estimer les probabilités de réponse est mal spécifié. Ensuite, nous montrerons les résultats d’une étude par simulations. Enfin, nous conclurons par des remarques générales quant aux méthodes présentées et à des alternatives plus robustes.
Biographie : Caren Hasler, docteur en statistique, est chercheure à l'Université de Neuchâtel, Suisse. Ses intérêts de recherche se portent principalement sur les aspects théoriques et pratiques du traitement de la non-réponse dans les enquêtes.
Jeudi 23 février 2023 à 14h00 (heure de Paris - CET)
Invité : Guillaume Chauvet (ENSAI)
Titre : Estimation de variance par bootstrap pour des estimations transversales dans le cas d'une enquête à échantillons rotatifs : cas de l'enquête Histoire de Vie et Patrimoine de l'Insee
Co-auteurs : Emmanuel Gros, Olivier Guin et Jean Rubin (Insee)
Résumé : L’Enquête Histoire de Vie et Patrimoine (EHVP) a pour objectif de décrire les actifs financiers, immobiliers et professionnels des ménages ainsi que l’endettement associé. Elle constitue la partie française du Household Finance and Consumption Survey (HFCS), piloté par la Banque Centrale Européenne. Le champ de cette enquête est celui des ménages ordinaires résidant en France.
L’échantillon HVP est constitué à l’aide d’un plan de sondage rotatif, utilisant 4 sous-échantillons tirés et entrés dans le dispositif d’enquête 4 vagues consécutives. Pour chacun de ces 4 sous-échantillons, un échantillon de logements est d’abord tiré dans l’échantillon-maître de l’Insee, obtenu selon un plan de sondage à plusieurs degrés. Les individus des ménages de ces logements sont enquêtés, puis suivis dans le temps et réinterrogés pendant 4 années consécutives, en compensant l’attrition par une méthode de repondération. En régime de croisière, une estimation transversale l’année t est donc obtenue en agrégeant les 4 sous-échantillons d’individus suivis jusqu’au temps t. Comme ces sous-échantillons représentent des populations chevauchantes, la méthode de partage des poids est utilisée pour éviter les problèmes de comptes multiples.
Dans ce travail, nous présenterons brièvement la méthode d’échantillonnage utilisée pour l’enquête HVP, ainsi que la méthode d’estimation retenue utilisant la méthode de partage des poids. Nous expliquerons également comment la méthode du bootstrap avec remise a été utilisée pour produire une estimation de variance pour les estimations transversales.
Biographie : Docteur en Statistique et Habilité à diriger des recherches, Guillaume Chauvet est enseignant-chercheur à l’Ensai et membre de l’UMR-6625 IRMAR. Il s’intéresse aux multiples aspects de la Statistique d’Enquête, incluant les méthodes d’échantillonnage, le traitement de la non-réponse, l’estimation de précision, le traitement de données longitudinales, l’analyse de données d’enquête, ainsi que leur application à des domaines connexes (épidémiologie, foresterie). Il est l’auteur de nombreux articles scientifiques.
Jeudi 15 décembre à 14h00 (heure de Paris - CET)
Invité : Camelia Goga (Université de Bourgogne Franche-Comté, France)
Titre : Estimation assisté par modèle dans un cadre à grande dimension pour des données d’enquête
Co-auteurs : La présentation est une synthèse des résultats de plusieurs travaux: Calibration and Partial Calibration on Principal Components when the Number of Auxiliary Variables is Large (avec Hervé Cardot et Muhammad Ahmed Shehzad); Asymptotic efficiency of the calibration estimator in a high-dimensional setting (avec Guillaume Chauvet); Model-assisted estimation in a high-dimensional settings for survey data (avec Mehdi Dagdoug et David Haziza).
Résumé : Dans les enquêtes par sondage, les estimateurs basés sur un modèle sont couramment utilisés pour obtenir des estimateurs efficaces pour des paramètres d’intérêt comme les totaux ou les moyennes. De nos jours, il n’est plus rare d’être confronté à un très grand nombre de variables auxiliaires et les estimateurs assistés par un modèle peuvent être moins efficaces dans ces conditions. Dans cet exposé, je discuterai de l’efficacité asymptotique des estimateurs assistés par un modèle en présence d’un très grand nombre de variables auxiliaires et je montrerai qu'ils peuvent souffrir d'une variabilité supplémentaire dans certaines conditions. Je présenterai également deux techniques pour améliorer l’efficacité de l’estimateur assisté par un modèle dans un contexte de grande dimension: la première est basée sur la réduction de dimension par composantes principales et la deuxième est basée sur la pénalisation de type ridge. La méthodologie est illustrée sur des données réelles de consommation d’électricité de ménages et d'entreprises irlandaises.
Biographie : Camelia Goga est professeur en statistique à l’Université de Franche-Comté. Ses thématiques de recherche portent sur la théorie des sondages, en particulier l’estimation en grande dimension pour des données de type enquête par des méthodes de statistique fonctionnelle, non-paramétrique.
Jeudi 20 octobre à 14h00 (heure de Paris - CET)
Invité : David Haziza (University of Ottawa, Canada)
Titre : Utilisation des méthodes d’apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes
Co-auteurs : Khaled Larbi (ENSAE, France) and Mehdi Dagdoug (Université de Bourgone Franche Comté, France)
Résumé :
Ces dernières années, l'apprentissage automatique a suscité un intérêt considérable dans les offices nationaux de statistique. Grâce à leur flexibilité et leur bonne performance en termes de prédiction, ces méthodes peuvent s'avérer utiles au stade du traitement de la non-réponse totale. Cependant, dans un contexte de non-réponse totale, nous sommes confrontés à un problème d'estimation plutôt qu'à un problème de prédiction. Notre objectif est d'estimer un paramètre de population finie (par exemple, un total de population) et le modèle de non-réponse le plus prédictif ne conduit pas nécessairement au meilleur estimateur (en termes d'erreur quadratique moyenne) d'un total/moyenne de population. Cette situation est différente de celle que l'on rencontre dans un contexte d'imputation pour la non-réponse partielle où l’on s'attend à ce que l'algorithme le plus prédictif soit performant en termes de biais et d'efficacité. Nous illustrerons ce problème au moyen d’un exemple simulé. De plus, nous présenterons les résultats d’une vaste étude par simulation dont le but est de comparer plusieurs méthodes d’apprentissage automatique en termes de biais et d’efficacité. En plus des procédures d'apprentissage automatique classiques (arbres de régression, forêts aléatoires, boosting, etc.), nous évaluerons la performance de certaines approches d'ensemble qui utilisent différentes procédures d'apprentissage automatique pour produire un ensemble unique de poids ajustés pour la non-réponse.
Biographie : David Haziza est professeur au département de mathématiques et de statistique à l’Université d’Ottawa. Il est également consultant à Statistique Canada. Ses intérêts de recherche portent sur l’inférence en présence de valeurs manquantes, l’inférence en présence de valeurs influentes, les méthodes de ré-échantillonnage et les méthodes d’apprentissage automatique.