Méthodes de rééchantillonnage en méthodologie d'enquête
Thèse ou mémoire
2014-10 (octroi du grade: 2015-02-18)
Auteur·e·s
Cycle d'études
DoctoratProgramme
StatistiqueMots-clés
- Bootstrap
- Poids bootstrap
- Estimation doublement robuste
- Imputation
- Modèle d'imputation
- Non-réponse partielle
- Modèle de non-résponse
- Bootstrap par pseudo-population
- Estimation de la variance
- Bootstrap weights approach
- Doubly robust estimation
- Imputation model approach
- Item non-response
- Non-response model approach
- Pseudo-population bootstrap approach
- Variance estimation
- Mathematics / Mathématiques (UMI : 0405)
Résumé·s
Le sujet principal de cette thèse porte sur l'étude de l'estimation de la variance d'une statistique basée sur des données d'enquête imputées via le bootstrap (ou la méthode de Cyrano). L'application d'une méthode bootstrap conçue pour des données d'enquête complètes (en absence de non-réponse) en présence de valeurs imputées et faire comme si celles-ci étaient de vraies observations peut conduire à une sous-estimation de la variance. Dans ce contexte, Shao et Sitter (1996) ont introduit une procédure bootstrap dans laquelle la variable étudiée et l'indicateur de réponse sont rééchantillonnés ensemble et les non-répondants bootstrap sont imputés de la même manière qu'est traité l'échantillon original. L'estimation bootstrap de la variance obtenue est valide lorsque la fraction de sondage est faible.
Dans le chapitre 1, nous commençons par faire une revue des méthodes bootstrap existantes pour les données d'enquête (complètes et imputées) et les présentons dans un cadre unifié pour la première fois dans la littérature.
Dans le chapitre 2, nous introduisons une nouvelle procédure bootstrap pour estimer la variance sous l'approche du modèle de non-réponse lorsque le mécanisme de non-réponse uniforme est présumé.
En utilisant seulement les informations sur le taux de réponse, contrairement à Shao et Sitter (1996) qui nécessite l'indicateur de réponse individuelle, l'indicateur de réponse bootstrap est généré pour chaque échantillon bootstrap menant à un estimateur bootstrap de la variance valide même pour les fractions de sondage non-négligeables.
Dans le chapitre 3, nous étudions les approches bootstrap par pseudo-population et nous considérons une classe plus générale de mécanismes de non-réponse.
Nous développons deux procédures bootstrap par pseudo-population pour estimer la variance d'un estimateur imputé par rapport à l'approche du modèle de non-réponse et à celle du modèle d'imputation. Ces procédures sont également valides même pour des fractions de sondage non-négligeables. The aim of this thesis is to study the bootstrap variance estimators of a statistic based on imputed survey data. Applying a bootstrap method designed for complete survey data (full response) in the presence of imputed values and treating them as true observations may lead to underestimation of the variance.
In this context, Shao and Sitter (1996) introduced a bootstrap procedure in which the variable under study and the response status are bootstrapped together and bootstrap non-respondents are imputed using the imputation method applied on the original sample.
The resulting bootstrap variance estimator is valid when the sampling fraction is small.
In Chapter 1, we begin by doing a survey of the existing bootstrap methods for (complete and imputed) survey data and, for the first time in the literature, present them in a unified framework.
In Chapter 2, we introduce a new bootstrap procedure to estimate the variance under the non-response model approach when the uniform non-response mechanism is assumed.
Using only information about the response rate, unlike Shao and Sitter (1996) which requires the individual response status, the bootstrap response status is generated for each selected bootstrap sample leading to a valid bootstrap variance estimator even for non-negligible sampling fractions.
In Chapter 3, we investigate pseudo-population bootstrap approaches and we consider a more general class of non-response mechanisms. We develop two pseudo-population bootstrap procedures to estimate the variance of an imputed estimator with respect to the non-response model and the imputation model approaches. These procedures are also valid even for non-negligible sampling fractions.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.