Séminaire en ligne


(organisé en collaboration avec l’Université de Neuchâtel, Suisse)



Le groupe Enquêtes, Modèles et Applications organise tous les deux mois, en collaboration avec l’Université de Neuchâtel, Suisse un séminaire en ligne francophone sur les sondages d’une durée d’une heure (45 minutes de présentation et 15 minutes de questions-réponses). Chaque séance sera l’occasion de présenter en français des travaux récents et novateurs sur la théorie et la pratique des sondages.

Prochaine séance


Jeudi 23 février à 14h00 (heure de Paris - CET)


Invité : Guillaume Chauvet (ENSAI)

Titre : Estimation de variance par bootstrap pour des estimations transversales dans le cas d'une enquête à échantillons rotatifs : cas de l'enquête Histoire de Vie et Patrimoine de l'Insee

Co-auteurs : Emmanuel Gros, Olivier Guin et Jean Rubin (Insee)

Résumé : L’Enquête Histoire de Vie et Patrimoine (EHVP) a pour objectif de décrire les actifs financiers, immobiliers et professionnels des ménages ainsi que l’endettement associé. Elle constitue la partie française du Household Finance and Consumption Survey (HFCS), piloté par la Banque Centrale Européenne. Le champ de cette enquête est celui des ménages ordinaires résidant en France.

L’échantillon HVP est constitué à l’aide d’un plan de sondage rotatif, utilisant 4 sous-échantillons tirés et entrés dans le dispositif d’enquête 4 vagues consécutives. Pour chacun de ces 4 sous-échantillons, un échantillon de logements est d’abord tiré dans l’échantillon-maître de l’Insee, obtenu selon un plan de sondage à plusieurs degrés. Les individus des ménages de ces logements sont enquêtés, puis suivis dans le temps et réinterrogés pendant 4 années consécutives, en compensant l’attrition par une méthode de repondération. En régime de croisière, une estimation transversale l’année t est donc obtenue en agrégeant les 4 sous-échantillons d’individus suivis jusqu’au temps t. Comme ces sous-échantillons représentent des populations chevauchantes, la méthode de partage des poids est utilisée pour éviter les problèmes de comptes multiples.

Dans ce travail, nous présenterons brièvement la méthode d’échantillonnage utilisée pour l’enquête HVP, ainsi que la méthode d’estimation retenue utilisant la méthode de partage des poids. Nous expliquerons également comment la méthode du bootstrap avec remise a été utilisée pour produire une estimation de variance pour les estimations transversales.

Biographie : Docteur en Statistique et Habilité à diriger des recherches, Guillaume Chauvet est enseignant-chercheur à l’Ensai et membre de l’UMR-6625 IRMAR. Il s’intéresse aux multiples aspects de la Statistique d’Enquête, incluant les méthodes d’échantillonnage, le traitement de la non-réponse, l’estimation de précision, le traitement de données longitudinales, l’analyse de données d’enquête, ainsi que leur application à des domaines connexes (épidémiologie, foresterie). Il est l’auteur de nombreux articles scientifiques.

Séances précédentes



Jeudi 15 décembre à 14h00 (heure de Paris - CET)



Invité : Camelia Goga (Université de Bourgogne Franche-Comté, France)

Titre : Estimation assisté par modèle dans un cadre à grande dimension pour des données d’enquête

Co-auteurs : La présentation est une synthèse des résultats de plusieurs travaux: Calibration and Partial Calibration on Principal Components when the Number of Auxiliary Variables is Large (avec Hervé Cardot et Muhammad Ahmed Shehzad); Asymptotic efficiency of the calibration estimator in a high-dimensional setting (avec Guillaume Chauvet); Model-assisted estimation in a high-dimensional settings for survey data (avec Mehdi Dagdoug et David Haziza).

Résumé : Dans les enquêtes par sondage, les estimateurs basés sur un modèle sont couramment utilisés pour obtenir des estimateurs efficaces pour des paramètres d’intérêt comme les totaux ou les moyennes. De nos jours, il n’est plus rare d’être confronté à un très grand nombre de variables auxiliaires et les estimateurs assistés par un modèle peuvent être moins efficaces dans ces conditions. Dans cet exposé, je discuterai de l’efficacité asymptotique des estimateurs assistés par un modèle en présence d’un très grand nombre de variables auxiliaires et je montrerai qu'ils peuvent souffrir d'une variabilité supplémentaire dans certaines conditions. Je présenterai également deux techniques pour améliorer l’efficacité de l’estimateur assisté par un modèle dans un contexte de grande dimension: la première est basée sur la réduction de dimension par composantes principales et la deuxième est basée sur la pénalisation de type ridge. La méthodologie est illustrée sur des données réelles de consommation d’électricité de ménages et d'entreprises irlandaises.

Biographie : Camelia Goga est professeur en statistique à l’Université de Franche-Comté. Ses thématiques de recherche portent sur la théorie des sondages, en particulier l’estimation en grande dimension pour des données de type enquête par des méthodes de statistique fonctionnelle, non-paramétrique.

Jeudi 20 octobre à 14h00 (heure de Paris - CET)



Invité : David Haziza (University of Ottawa, Canada)

Titre : Utilisation des méthodes d’apprentissage automatique pour le traitement de la non-réponse totale dans les enquêtes

Co-auteurs : Khaled Larbi (ENSAE, France) and Mehdi Dagdoug (Université de Bourgone Franche Comté, France)

Résumé :

Ces dernières années, l'apprentissage automatique a suscité un intérêt considérable dans les offices nationaux de statistique. Grâce à leur flexibilité et leur bonne performance en termes de prédiction, ces méthodes peuvent s'avérer utiles au stade du traitement de la non-réponse totale. Cependant, dans un contexte de non-réponse totale, nous sommes confrontés à un problème d'estimation plutôt qu'à un problème de prédiction. Notre objectif est d'estimer un paramètre de population finie (par exemple, un total de population) et le modèle de non-réponse le plus prédictif ne conduit pas nécessairement au meilleur estimateur (en termes d'erreur quadratique moyenne) d'un total/moyenne de population. Cette situation est différente de celle que l'on rencontre dans un contexte d'imputation pour la non-réponse partielle où l’on s'attend à ce que l'algorithme le plus prédictif soit performant en termes de biais et d'efficacité. Nous illustrerons ce problème au moyen d’un exemple simulé. De plus, nous présenterons les résultats d’une vaste étude par simulation dont le but est de comparer plusieurs méthodes d’apprentissage automatique en termes de biais et d’efficacité. En plus des procédures d'apprentissage automatique classiques (arbres de régression, forêts aléatoires, boosting, etc.), nous évaluerons la performance de certaines approches d'ensemble qui utilisent différentes procédures d'apprentissage automatique pour produire un ensemble unique de poids ajustés pour la non-réponse.


Biographie : David Haziza est professeur au département de mathématiques et de statistique à l’Université d’Ottawa. Il est également consultant à Statistique Canada. Ses intérêts de recherche portent sur l’inférence en présence de valeurs manquantes, l’inférence en présence de valeurs influentes, les méthodes de ré-échantillonnage et les méthodes d’apprentissage automatique.
 
 
©2023 SFdS
Société Française de Statistique
Institut Henri Poincaré
11 rue Pierre et Marie Curie
75231 Paris cedex 5
Tél. : +33 (0)1 44 27 66 60
Notre site a été supporté par :