Generative models : a critical review
Thesis or Dissertation
2018-07 (degree granted: 2018-10-18)
Author(s)
Advisor(s)
Level
Master'sDiscipline
InformatiqueKeywords
- Réseaux de neurones
- Apprentissage automatique
- Apprentissage de représentations profondes
- Apprentissage supervisé
- Modèles génératifs
- Prédiction structurée
- Neural networks
- Machine learning
- Deep learning
- Supervised learning
- Generative modeling
- Structured prediction
- Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Abstract(s)
Dans cette thèse, nous introduisons et motivons la modélisation générative comme une tâche centrale pour l’apprentissage automatique et fournissons une vue critique des algorithmes qui ont été proposés pour résoudre cette tâche. Nous montrons comment la modélisation générative peut être définie mathématiquement en essayant de faire une distribution d’estimation identique à une distribution de vérité de terrain inconnue. Ceci peut ensuite être quantifié en termes de valeur d’une divergence statistique entre les deux distributions. Nous décrivons l’approche du maximum de vraisemblance et comment elle peut être interprétée comme minimisant la divergence KL. Nous explorons un certain nombre d’approches dans la famille du maximum de vraisemblance, tout en discutant de leurs limites. Enfin, nous explorons l’approche antagoniste alternative qui consiste à étudier les différences entre une distribution d’estimation et une distribution de données réelles. Nous discutons de la façon dont cette approche peut donner lieu à de nouvelles divergences et méthodes qui sont nécessaires pour réussir l’apprentissage par l’adversité. Nous discutons également des nouveaux paramètres d’évaluation requis par l’approche contradictoire. Le chapitre ref chap: fortnet montre qu’en apprenant des modèles génératifs des couches cachées d’un réseau profond, on peut identifier quand le réseau fonctionne sur des données différentes des données observées pendant la formation. Cela nous permet d’étudier les différences entre les modes de fonctionnement libre et de forçage des enseignants dans les réseaux récurrents. Cela conduit également à une meilleure robustesse face aux attaques adverses. Le chapitre ref chap: gibbsnet a exploré une procédure itérative pour la génération et l’inférence dans les réseaux profonds, qui est inspirée par la procédure MCMC de gibbs bloquées pour l’échantillonnage à partir de modèles basés sur l’énergie. Cela permet d’améliorer l’inpainting, la génération et l’inférence en supprimant l’exigence que les variables a priori sur les variables latentes aient une distribution connue. Le chapitre ref chap: discreg a étudié si les modèles génératifs pouvaient être améliorés en exploitant les connaissances acquises par des modèles de classification discriminants. Nous avons étudié cela en augmentant les autoencoders avec des pertes supplémentaires définies dans les états cachés d’un classificateur fixe. Dans la pratique, nous avons montré que cela conduisait à des modèles générateurs mettant davantage l’accent sur les aspects saillants des données, et discutait également des limites de cette approche. In this thesis we introduce and motivate generative modeling as a central task
for machine learning and provide a critical view of the algorithms which have been
proposed for solving this task. We overview how generative modeling can be de ned
mathematically as trying to make an estimating distribution the same as an unknown
ground truth distribution. This can then be quanti ed in terms of the value of
a statistical divergence between the two distributions. We outline the maximum
likelihood approach and how it can be interpreted as minimizing KL-divergence. We
explore a number of approaches in the maximum likelihood family, while discussing
their limitations. Finally, we explore the alternative adversarial approach which
involves studying the di erences between an estimating distribution and a real data
distribution. We discuss how this approach can give rise to new divergences and
methods that are necessary to make adversarial learning successful. We also discuss
new evaluation metrics which are required by the adversarial approach.
Chapter 2 shows that by learning generative models of the hidden layers of a
deep network can identify when the network is being run on data di ering from
the data seen during training. This allows us to study di erences between freerunning
and teacher forcing modes in recurrent networks. It also leads to improved
robustness to adversarial attacks.
Chapter 3 explored an iterative procedure for generation and inference in deep
networks, which is inspired by the blocked gibbs MCMC procedure for sampling
from energy-based models. This achieves improved inpainting, generation, and
inference by removing the requirement that the prior over the latent variables have
a known distribution.
Chapter 4 studied whether generative models could be improved by exploiting
the knowledge learned by discriminative classi cation models. We studied this by
augmenting autoencoders with additional losses de ned in the hidden states of a
xed classi er. In practice we showed that this led to generative models with better
focus on salient aspects of the data, and also discussed limitations in this approach.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.