Reparametrization in deep learning

Dinh, Laurent

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Dinh, Laurent
dc.date.accessioned	2018-12-17T20:56:39Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2018-12-17T20:56:39Z
dc.date.issued	2018-10-18
dc.date.submitted	2018-02
dc.identifier.uri	http://hdl.handle.net/1866/21139
dc.subject	Neural networks	fr
dc.subject	Deep neural networks	fr
dc.subject	Machine learning	fr
dc.subject	Deep learning	fr
dc.subject	Unsupervised learning	fr
dc.subject	Probabilistic modelling	fr
dc.subject	Probabilistic models	fr
dc.subject	Generative modelling	fr
dc.subject	Generative models	fr
dc.subject	Generator networks	fr
dc.subject	Variational inference	fr
dc.subject	Generalization	fr
dc.subject	Reparametrization trick	fr
dc.subject	Réseaux de neurones	fr
dc.subject	Réseaux neuronaux	fr
dc.subject	Réseaux de neurones profonds	fr
dc.subject	Réseaux neuronaux profonds	fr
dc.subject	Apprentissage automatique	fr
dc.subject	Apprentissage profond	fr
dc.subject	Apprentissage non-supervisé	fr
dc.subject	Modélisation probabiliste	fr
dc.subject	Modélisation générative	fr
dc.subject	Modèles probabilistes	fr
dc.subject	Modèles génératifs	fr
dc.subject	Réseaux générateurs	fr
dc.subject	Inférence variationnelle	fr
dc.subject	Généralisation	fr
dc.subject	Astuce de la reparamétrisation	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Reparametrization in deep learning	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	fr
etd.degree.name	Ph. D.	fr
dcterms.abstract	L'apprentissage profond est une approche connectioniste à l'apprentissage automatique. Elle a pu exploiter la récente production massive de données numériques et l'explosion de la quantité de ressources computationelles qu'a amené ces dernières décennies. La conception d'algorithmes d'apprentissage profond repose sur trois facteurs essentiels: l'expressivité, la recherche efficace de solution, et la généralisation des solutions apprises. Nous explorerons dans cette thèse ces thèmes du point de vue de la reparamétrisation. Plus précisement, le chapitre 3 s'attaque à une conjecture populaire, selon laquelle les énormes réseaux de neurones ont pu apprendre, parmi tant de solutions possibles, celle qui généralise parce que les minima atteints sont plats. Nous démontrons les lacunes profondes de cette conjecture par reparamétrisation sur des exemples simples de modèles populaires, ce qui nous amène à nous interroger sur les interprétations qu'ont superposées précédents chercheurs sur plusieurs phénomènes précédemment observés. Enfin, le chapitre 5 enquête sur le principe d'analyse non-linéaire en composantes indépendantes permettant une formulation analytique de la densité d'un modèle par changement de variable. En particulier, nous proposons l'architecture Real NVP qui utilise de puissantes fonctions paramétriques et aisément inversible que nous pouvons simplement entraîner par descente de gradient. Nous indiquons les points forts et les points faibles de ce genre d'approches et expliquons les algorithmes développés durant ce travail.	fr
dcterms.abstract	Deep learning is a connectionist approach to machine learning that successfully harnessed our massive production of data and recent increase in computational resources. In designing efficient deep learning algorithms come three principal themes: expressivity, trainability, and generalizability. We will explore in this thesis these questions through the point of view of reparametrization. In particular, chapter 3 confronts a popular conjecture in deep learning attempting to explain why large neural network are learning among many plausible hypotheses one that generalize: flat minima reached through learning generalize better. We demonstrate the serious limitations this conjecture encounters by reparametrization on several simple and popular models and interrogate the interpretations put on experimental observations. Chapter 5 explores the framework of nonlinear independent components enabling closed form density evaluation through change of variable. More precisely, this work proposes Real NVP, an architecture using expressive and easily invertible computational layers trainable by standard gradient descent algorithms. We showcase its successes and shortcomings in modelling high dimensional data, and explain the techniques developed in that design.	fr
dcterms.language	eng	fr

Files in this item

Name:: Dinh_Laurent_2018_these.pdf
Size:: 10.81Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24402]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1181]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.