Efficacité de l’algorithme EM en ligne pour des modèles statistiques complexes dans le contexte des données massives

Martel, Yannick

dc.contributor.advisor	Maire, Florian
dc.contributor.author	Martel, Yannick
dc.date.accessioned	2021-08-27T13:29:25Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2021-08-27T13:29:25Z
dc.date.issued	2021-07-14
dc.date.submitted	2020-11
dc.identifier.uri	http://hdl.handle.net/1866/25477
dc.subject	Algorithme EM	fr
dc.subject	Approximation stochastique	fr
dc.subject	Réduction de variance	fr
dc.subject	Statistique computationnelle	fr
dc.subject	Algorithme en ligne	fr
dc.subject	EM algorithm	fr
dc.subject	Stochastic approximation	fr
dc.subject	Variance reduction	fr
dc.subject	Computational statistics	fr
dc.subject	Online algorithm	fr
dc.subject.other	Physical Sciences - Statistics / Sciences physiques - Statistiques (UMI : 0463)	fr
dc.title	Efficacité de l’algorithme EM en ligne pour des modèles statistiques complexes dans le contexte des données massives	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Statistique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	L’algorithme EM (Dempster et al., 1977) permet de construire une séquence d’estimateurs qui converge vers l’estimateur de vraisemblance maximale pour des modèles à données manquantes pour lesquels l’estimateur du maximum de vraisemblance n’est pas calculable. Cet algorithme est remarquable compte tenu de ses nombreuses applications en apprentissage statistique. Toutefois, il peut avoir un lourd coût computationnel. Les auteurs Cappé et Moulines (2009) ont proposé une version en ligne de cet algorithme pour les modèles appartenant à la famille exponentielle qui permet de faire des gains d’efficacité computationnelle importants en présence de grands jeux de données. Cependant, le calcul de l’espérance a posteriori de la statistique exhaustive, qui est nécessaire dans la version de Cappé et Moulines (2009), est rarement possible pour des modèles complexes et/ou lorsque la dimension des données manquantes est grande. On doit alors la remplacer par un estimateur. Plusieurs questions se présentent naturellement : les résultats de convergence de l’algorithme initial restent-ils valides lorsqu’on remplace l’espérance par un estimateur ? En particulier, que dire de la normalité asymptotique de la séquence des estimateurs ainsi créés, de la variance asymptotique et de la vitesse de convergence ? Comment la variance de l’estimateur de l’espérance se reflète-t-elle sur la variance asymptotique de l’estimateur EM? Peut-on travailler avec des estimateurs de type Monte-Carlo ou MCMC? Peut-on emprunter des outils populaires de réduction de variance comme les variables de contrôle ? Ces questions seront étudiées à l’aide d’exemples de modèles à variables latentes. Les contributions principales de ce mémoire sont une présentation unifiée des algorithmes EM d’approximation stochastique, une illustration de l’impact au niveau de la variance lorsque l’espérance a posteriori est estimée dans les algorithmes EM en ligne et l’introduction d’algorithmes EM en ligne permettant de réduire la variance supplémentaire occasionnée par l’estimation de l’espérance a posteriori.	fr
dcterms.abstract	The EM algorithm Dempster et al. (1977) yields a sequence of estimators that converges to the maximum likelihood estimator for missing data models whose maximum likelihood estimator is not directly tractable. The EM algorithm is remarkable given its numerous applications in statistical learning. However, it may suffer from its computational cost. Cappé and Moulines (2009) proposed an online version of the algorithm in models whose likelihood belongs to the exponential family that provides an upgrade in computational efficiency in large data sets. However, the conditional expected value of the sufficient statistic is often intractable for complex models and/or when the missing data is of a high dimension. In those cases, it is replaced by an estimator. Many questions then arise naturally: do the convergence results pertaining to the initial estimator hold when the expected value is substituted by an estimator? In particular, does the asymptotic normality property remain in this case? How does the variance of the estimator of the expected value affect the asymptotic variance of the EM estimator? Are Monte-Carlo and MCMC estimators suitable in this situation? Could variance reduction tools such as control variates provide variance relief? These questions will be tackled by the means of examples containing latent data models. This master’s thesis’ main contributions are the presentation of a unified framework for stochastic approximation EM algorithms, an illustration of the impact that the estimation of the conditional expected value has on the variance and the introduction of online EM algorithms which reduce the additional variance stemming from the estimation of the conditional expected value.	fr
dcterms.language	fra	fr

Fichier·s constituant ce document

Nom:: Martel_Yannick_2020_memoire.pdf
Taille:: 3.909Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [23739]
Faculté des arts et des sciences – Département de mathématiques et de statistique – Thèses et mémoires [508]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.