Bidirectional Helmholtz Machines

Shabanian, Samira

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Shabanian, Samira
dc.date.accessioned	2016-11-14T15:11:20Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2016-11-14T15:11:20Z
dc.date.issued	2016-09-28
dc.date.submitted	2016-09
dc.identifier.uri	http://hdl.handle.net/1866/16181
dc.subject	Helmholtz Machines	fr
dc.subject	Bidirectional Helmholtz Machine	fr
dc.subject	Semi-supervised learning problems	fr
dc.subject	Generative Models	fr
dc.subject	l'entraînement semi-supervisé	fr
dc.subject	les modèles génératifs	fr
dc.subject	la machine de Helmholtz	fr
dc.subject	la machine de Helmholtz bidirectionnelle	fr
dc.subject.other	Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)	fr
dc.title	Bidirectional Helmholtz Machines	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	L'entraînement sans surveillance efficace et inférence dans les modèles génératifs profonds reste un problème difficile. Une approche assez simple, la machine de Helmholtz, consiste à entraîner du haut vers le bas un modèle génératif dirigé qui sera utilisé plus tard pour l'inférence approximative. Des résultats récents suggèrent que de meilleurs modèles génératifs peuvent être obtenus par de meilleures procédures d'inférence approximatives. Au lieu d'améliorer la procédure d'inférence, nous proposons ici un nouveau modèle, la machine de Helmholtz bidirectionnelle, qui garantit qu'on peut calculer efficacement les distributions de haut-vers-bas et de bas-vers-haut. Nous y parvenons en interprétant à les modèles haut-vers-bas et bas-vers-haut en tant que distributions d'inférence approximative, puis ensuite en définissant la distribution du modèle comme étant la moyenne géométrique de ces deux distributions. Nous dérivons une borne inférieure pour la vraisemblance de ce modèle, et nous démontrons que l'optimisation de cette borne se comporte en régulisateur. Ce régularisateur sera tel que la distance de Bhattacharyya sera minisée entre les distributions approximatives haut-vers-bas et bas-vers-haut. Cette approche produit des résultats de pointe en terme de modèles génératifs qui favorisent les réseaux significativement plus profonds. Elle permet aussi une inférence approximative amérliorée par plusieurs ordres de grandeur. De plus, nous introduisons un modèle génératif profond basé sur les modèles BiHM pour l'entraînement semi-supervisé.	fr
dcterms.abstract	Efficient unsupervised training and inference in deep generative models remains a challenging problem. One basic approach, called Helmholtz machine, involves training a top-down directed generative model together with a bottom-up auxiliary model used for approximate inference. Recent results indicate that better generative models can be obtained with better approximate inference procedures. Instead of improving the inference procedure, we here propose a new model, the bidirectional Helmholtz machine, which guarantees that the top-down and bottom-up distributions can efficiently invert each other. We achieve this by interpreting both the top-down and the bottom-up directed models as approximate inference distributions and by defining the model distribution to be the geometric mean of these two. We present a lower-bound for the likelihood of this model and we show that optimizing this bound regularizes the model so that the Bhattacharyya distance between the bottom-up and top-down approximate distributions is minimized. This approach results in state of the art generative models which prefer significantly deeper architectures while it allows for orders of magnitude more efficient approximate inference. Moreover, we introduce a deep generative model for semi-supervised learning problems based on BiHM models.	fr
dcterms.language	eng	fr

Files in this item

Name:: Samira_Shabanian_2016_these.pdf
Size:: 1.994Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [23820]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1156]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.