Understanding deep architectures and the effect of unsupervised pre-training
Thèse ou mémoire
2010-10 (octroi du grade: 2011-05-05)
Auteur·e·s
Directeur·trice·s de recherche
Cycle d'études
DoctoratProgramme
InformatiqueMots-clés
- Apprentissage automatique
- Machine learning
- Réseaux de neurones artificiels
- Artificial neural networks
- Architectures profondes
- Deep architectures
- Apprentissage non-supervisé
- Unsupervised learning
- Visualisation
- Visualization
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Résumé·s
Cette thèse porte sur une classe d'algorithmes d'apprentissage appelés architectures profondes. Il existe des résultats qui indiquent que les représentations peu profondes et locales ne sont pas suffisantes pour la modélisation des fonctions comportant plusieurs facteurs de variation. Nous sommes particulièrement intéressés par ce genre de données car nous espérons qu'un agent intelligent sera en mesure d'apprendre à les modéliser automatiquement; l'hypothèse est que les architectures profondes sont mieux adaptées pour les modéliser.
Les travaux de Hinton (2006) furent une véritable percée, car l'idée d'utiliser un algorithme d'apprentissage non-supervisé, les machines de Boltzmann restreintes, pour l'initialisation des poids d'un réseau de neurones
supervisé a été cruciale pour entraîner l'architecture profonde la plus populaire, soit les réseaux de neurones artificiels avec des poids totalement connectés. Cette idée a été reprise et reproduite avec succès dans plusieurs contextes et avec une variété de modèles.
Dans le cadre de cette thèse, nous considérons les architectures profondes comme des biais inductifs. Ces biais sont représentés non seulement par les modèles eux-mêmes, mais aussi par les méthodes d'entraînement qui sont souvent utilisés en conjonction avec ceux-ci. Nous désirons définir les raisons pour lesquelles cette classe de fonctions généralise bien, les situations auxquelles ces fonctions pourront être appliquées, ainsi que les descriptions qualitatives de telles fonctions.
L'objectif de cette thèse est d'obtenir une meilleure compréhension du succès des architectures profondes. Dans le premier article, nous testons la concordance entre nos intuitions---que les réseaux profonds sont nécessaires pour mieux apprendre avec des données comportant plusieurs facteurs de variation---et les résultats empiriques. Le second article est une étude approfondie de la question: pourquoi l'apprentissage non-supervisé aide à mieux généraliser dans un réseau profond? Nous explorons et évaluons plusieurs hypothèses tentant d'élucider le fonctionnement de ces modèles. Finalement, le troisième article cherche à définir de façon qualitative les fonctions modélisées par un réseau profond. Ces visualisations facilitent l'interprétation des représentations et invariances modélisées par une architecture profonde. This thesis studies a class of algorithms called deep architectures. We argue that models that are based on a shallow composition of local features are not appropriate for the set of real-world functions and
datasets that are of interest to us, namely data with many factors of variation.
Modelling such functions and datasets is important if we are hoping to create an
intelligent agent that can learn from complicated data. Deep architectures are
hypothesized to be a step in the right direction, as they are compositions of nonlinearities and can learn compact
distributed representations of data with many factors of variation.
Training fully-connected artificial neural networks---the most common form of a
deep architecture---was not possible before Hinton (2006) showed that one can
use stacks of unsupervised Restricted Boltzmann Machines to initialize or
pre-train a supervised multi-layer network. This breakthrough has been
influential, as the basic idea of using unsupervised learning to improve
generalization in deep networks has been reproduced in a multitude of other
settings and models.
In this thesis, we cast the deep learning ideas and techniques as defining a
special kind of inductive bias. This bias is defined not only by the kind of
functions that are eventually represented by such deep models, but also by the
learning process that is commonly used for them. This work is a study of the
reasons for why this class of functions generalizes well, the situations where
they should work well, and the qualitative statements that one could make about
such functions.
This thesis is thus an attempt to understand why deep architectures work.
In the first of the articles presented we study the question of how well our
intuitions about the need for deep models correspond to functions that they can
actually model well. In the second article we perform an in-depth study of why
unsupervised pre-training helps deep learning and explore a variety of
hypotheses that give us an intuition for the dynamics of learning in such
architectures. Finally, in the third article, we want to better understand what
a deep architecture models, qualitatively speaking. Our visualization approach
enables us to understand the representations and invariances modelled and
learned by deeper layers.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.