Advances in scaling deep learning algorithms
Thesis or Dissertation
2015-06 (degree granted: 2016-03-23)
Author(s)
Advisor(s)
Level
DoctoralDiscipline
InformatiqueKeywords
- Deep learning
- Neural networks
- High-dimensional non-convex optimization
- Boltzmann machines
- Auto-encoders
- Apprentissage profond
- Réseaux de neurones
- Optimisation à haute dimensoin
- Machine de Boltzmann
- Auto-encodeurs
- Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)
Abstract(s)
Les algorithmes d'apprentissage profond forment un nouvel ensemble de méthodes
puissantes pour l'apprentissage automatique. L'idée est de combiner des couches
de facteurs latents en hierarchies. Cela requiert souvent un coût computationel
plus elevé et augmente aussi le nombre de paramètres du modèle. Ainsi, l'utilisation
de ces méthodes sur des problèmes à plus grande échelle demande de réduire leur
coût et aussi d'améliorer leur régularisation et leur optimization. Cette
thèse adresse cette question sur ces trois perspectives.
Nous étudions tout d'abord le problème de réduire le coût de certains
algorithmes profonds. Nous proposons deux méthodes pour entrainer des machines
de Boltzmann restreintes et des auto-encodeurs débruitants sur des
distributions sparses à haute dimension. Ceci est important pour l'application
de ces algorithmes pour le traitement de langues naturelles. Ces deux méthodes
(Dauphin et al., 2011; Dauphin and Bengio, 2013) utilisent l'échantillonage
par importance pour échantilloner l'objectif de ces modèles. Nous observons que
cela réduit significativement le temps d'entrainement. L'accéleration atteint
2 ordres de magnitude sur plusieurs bancs d'essai.
Deuxièmement, nous introduisont un puissant régularisateur pour les méthodes
profondes. Les résultats expérimentaux démontrent qu'un bon régularisateur est
crucial pour obtenir de bonnes performances avec des gros réseaux (Hinton et al., 2012).
Dans Rifai et al. (2011), nous proposons un nouveau régularisateur
qui combine l'apprentissage non-supervisé et la propagation de tangente (Simard et al., 1992).
Cette méthode exploite des principes géometriques et permit au moment de la
publication d'atteindre des résultats à l'état de l'art.
Finalement, nous considérons le problème d'optimiser des surfaces non-convexes
à haute dimensionalité comme celle des réseaux de neurones. Tradionellement,
l'abondance de minimum locaux était considéré comme la principale difficulté
dans ces problèmes. Dans Dauphin et al. (2014a) nous argumentons
à partir de résultats en statistique physique, de la théorie des matrices aléatoires,
de la théorie des réseaux de neurones et à partir de résultats expérimentaux qu'une
difficulté plus profonde provient de la prolifération de points-selle. Dans
ce papier nous proposons aussi une nouvelle méthode pour l'optimisation
non-convexe. Deep learning algorithms are a new set of powerful methods for machine
learning. The general idea is to combine layers of latent factors into
hierarchies. This usually leads to a higher computational cost and having more
parameters to tune. Thus scaling to larger problems will require not only
reducing their computational cost but also improving regularization and
optimization. This thesis investigates scaling from these three perspectives.
We first study the problem of reducing the computational cost of some deep learning
algorithms. We propose methods to scale restricted Boltzmann machines (RBM) and
denoising auto-encoders (DAE) to very high-dimensional sparse distributions.
This is important for applications of deep learning to natural language
processing. Both methods (Dauphin et al., 2011; Dauphin and Bengio, 2013)
rely on importance sampling to subsample the learning objective of
these models. We show that this greatly reduces the training time, leading to 2
orders of magnitude speed ups on several benchmark datasets without losses in
the quality of the model.
Second, we introduce a powerful regularization method for deep neural nets.
Experiments have shown that proper regularization is in many cases crucial to
obtaining good performance out of larger networks (Hinton et al., 2012).
In Rifai et al. (2011), we propose a new regularizer that combines
unsupervised learning and tangent propagation (Simard et al., 1992). The method
exploits several geometrical insights and was able at the time of publication
to reach state-of-the-art results on competitive benchmarks.
Finally, we consider the problem of optimizing over high-dimensional non-convex
loss surfaces like those found in deep neural nets. Traditionally, the main
difficulty in these problems is considered to be the abundance of local minima.
In Dauphin et al. (2014a) we argue, based on results from
statistical physics, random matrix theory, neural network theory, and empirical
evidence, that the vast majority of critical points
are saddle points, not local minima. We also propose a new optimization method for
non-convex optimization.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.