Training deep convolutional architectures for vision

Desjardins, Guillaume

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Desjardins, Guillaume
dc.date.accessioned	2010-03-30T15:13:02Z
dc.date.available	NO_RESTRICTION	en
dc.date.available	2010-03-30T15:13:02Z
dc.date.issued	2010-02-04
dc.date.submitted	2009-08
dc.identifier.uri	http://hdl.handle.net/1866/3646
dc.subject	Réseau de neurone	en
dc.subject	Neural network	en
dc.subject	Apprentissage profond	en
dc.subject	Deep learning	en
dc.subject	Apprentissage non-supervisé	en
dc.subject	Unsupervised learning	en
dc.subject	Apprentissage supervisé	en
dc.subject	Supervised learning	en
dc.subject	RBM	en
dc.subject	RBM	en
dc.subject	Modèle à base d’énergie	en
dc.subject	Energy-based model	en
dc.subject	Tempered MCMC	en
dc.subject	Tempered MCMC	en
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	en
dc.title	Training deep convolutional architectures for vision	en
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	en
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	en
etd.degree.name	M. Sc.	en
dcterms.abstract	Les tâches de vision artiﬁcielle telles que la reconnaissance d’objets demeurent irrésolues à ce jour. Les algorithmes d’apprentissage tels que les Réseaux de Neurones Artiﬁciels (RNA), représentent une approche prometteuse permettant d’apprendre des caractéristiques utiles pour ces tâches. Ce processus d’optimisation est néanmoins difﬁcile. Les réseaux profonds à base de Machine de Boltzmann Restreintes (RBM) ont récemment été proposés aﬁn de guider l’extraction de représentations intermédiaires, grâce à un algorithme d’apprentissage non-supervisé. Ce mémoire présente, par l’entremise de trois articles, des contributions à ce domaine de recherche. Le premier article traite de la RBM convolutionelle. L’usage de champs réceptifs locaux ainsi que le regroupement d’unités cachées en couches partageant les même paramètres, réduit considérablement le nombre de paramètres à apprendre et engendre des détecteurs de caractéristiques locaux et équivariant aux translations. Ceci mène à des modèles ayant une meilleure vraisemblance, comparativement aux RBMs entraînées sur des segments d’images. Le deuxième article est motivé par des découvertes récentes en neurosciences. Il analyse l’impact d’unités quadratiques sur des tâches de classiﬁcation visuelles, ainsi que celui d’une nouvelle fonction d’activation. Nous observons que les RNAs à base d’unités quadratiques utilisant la fonction softsign, donnent de meilleures performances de généralisation. Le dernière article quand à lui, offre une vision critique des algorithmes populaires d’entraînement de RBMs. Nous montrons que l’algorithme de Divergence Contrastive (CD) et la CD Persistente ne sont pas robustes : tous deux nécessitent une surface d’énergie relativement plate aﬁn que leur chaîne négative puisse mixer. La PCD à "poids rapides" contourne ce problème en perturbant légèrement le modèle, cependant, ceci génère des échantillons bruités. L’usage de chaînes tempérées dans la phase négative est une façon robuste d’adresser ces problèmes et mène à de meilleurs modèles génératifs.	en
dcterms.abstract	High-level vision tasks such as generic object recognition remain out of reach for modern Artiﬁcial Intelligence systems. A promising approach involves learning algorithms, such as the Arﬁcial Neural Network (ANN), which automatically learn to extract useful features for the task at hand. For ANNs, this represents a difﬁcult optimization problem however. Deep Belief Networks have thus been proposed as a way to guide the discovery of intermediate representations, through a greedy unsupervised training of stacked Restricted Boltzmann Machines (RBM). The articles presented here-in represent contributions to this ﬁeld of research. The ﬁrst article introduces the convolutional RBM. By mimicking local receptive ﬁelds and tying the parameters of hidden units within the same feature map, we considerably reduce the number of parameters to learn and enforce local, shift-equivariant feature detectors. This translates to better likelihood scores, compared to RBMs trained on small image patches. In the second article, recent discoveries in neuroscience motivate an investigation into the impact of higher-order units on visual classiﬁcation, along with the evaluation of a novel activation function. We show that ANNs with quadratic units using the softsign activation function offer better generalization error across several tasks. Finally, the third article gives a critical look at recently proposed RBM training algorithms. We show that Contrastive Divergence (CD) and Persistent CD are brittle in that they require the energy landscape to be smooth in order for their negative chain to mix well. PCD with fast-weights addresses the issue by performing small model perturbations, but may result in spurious samples. We propose using simulated tempering to draw negative samples. This leads to better generative models and increased robustness to various hyperparameters.	en
dcterms.language	eng	en

Fichier·s constituant ce document

Nom:: Desjardins_Guillaume_2009_memo ...
Taille:: 1.711Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24385]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1180]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.