Afficher la notice

dc.contributor.advisorCourville, Aaron
dc.contributor.advisorBengio, Yoshua
dc.contributor.authorPezeshki, Mohammad
dc.date.accessioned2017-04-12T14:42:04Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2017-04-12T14:42:04Z
dc.date.issued2017-03-28
dc.date.submitted2016-05
dc.identifier.urihttp://hdl.handle.net/1866/18343
dc.subjectNeural networksfr
dc.subjectMachine learningfr
dc.subjectDeep learningfr
dc.subjectRepresentation learningfr
dc.subjectUnsupervised learningfr
dc.subjectSupervised learningfr
dc.subjectSemi-supervised learningfr
dc.subjectModel regularizationfr
dc.subjectRéseaux de neuronesfr
dc.subjectApprentissage automatiquefr
dc.subjectApprentissage de représentations profondesfr
dc.subjectApprentissage de représentationsfr
dc.subjectApprentissage non superviséfr
dc.subjectApprentissage superviséfr
dc.subjectApprentissage semi-superviséfr
dc.subjectRégularisationfr
dc.subject.otherApplied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)fr
dc.titleTowards deep semi supervised learningfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractL'apprentissage profond est une sous-discipline de l'intelligence artificielle en plein essor grâce à d'impressionnantes performances, obtenue durant la dernière décennie, dans divers domaines d'application de l'apprentissage machine. Le pré-entraînement non supervisé des réseaux de neurones constitue une composante essentielle de ce succès. L'investigation d'idées combinant l'apprentissage supervisé et non supervisé se présente donc comme une étape naturelle. Le réseau de neurones à échelles est une récente architecture semi-supervisée ajoutant une composante non supervisée à la perte supervisée des réseaux profonds. Le modèle peut être compris comme étant une partie d'une juxtaposition d'autoencodeurs debruitant apprenant à reconstruire chaque couche. Pour ce faire, la reconstruction est atteinte en considérant une corruption de la couche présente grâce aux retours des couches supérieures. Le présent mémoire entreprend une analyse et déconstruction systématique de la performance des réseaux de neurones à échelles. Ainsi, nous analysons dix-neuf variantes de l'architecture obtenues en isolant les différentes composantes du modèles. Dans les chapitres I et II, nous introduisons les fondamentaux des réseaux de neurones, leur entraînement par descente de gradient, et leurs applications à l'apprentissage des représentations. Dans les chapitres III et IV, nous offrons une comparaison exhaustive d'un grand nombre de variantes du réseau de neurones à échelles en contrôlant les hyper paramètres ainsi que la sélection d'ensemble de données. Au cours de notre investigation, nous découvrons certaines propriétés générales du modèle qui le distingue des habituels réseaux à propagation avant. Nous terminons par l'introduction d'une variante du réseau à échelles obtenant ainsi des résultats dépassant l'état de l'art actuel dans des tâches de classification supervisé et semi-supervisé sur la version invariante aux permutations de MNIST.fr
dcterms.abstractDeep Learning is a quickly growing area of research in the field of Artificial Intelligence that has achieved impressive results in the last decade in various Machine Learning applications. Unsupervised learning for pre-training layers of neural networks was an essential part of the first wave of deep learning methods. A natural next step is to investigate ideas that could combine both unsupervised and supervised learning. The Ladder Network is a recently proposed semi-supervised architecture that adds an unsupervised component to the supervised learning objective of a deep network. The model can be seen as part of a deep stack of denoising autoencoders or DAEs that learns to reconstruct each layer. At each layer, the reconstruction is done based on a corrupted version of the current layer, using feedback from the upper layer. This thesis undertakes a systematic analysis and deconstruction of the Ladder Network, investigating which components lead to its excellent performance. We analyze nineteen different variants of the architecture derived by isolating one component of the model at a time. In Chapters 1 and 2, we introduce fundamentals of artificial neural networks, the gradient-based way of training them and their application in representation learning. We also introduce deep supervised and unsupervised learning and discuss the possible ways of combining them. In Chapters 3 and 4, we provide a thorough comparison of a large number of variants of the Ladder Network controlling both hyperparameter settings and data set selection. Through our investigation, we discover some general properties of the model that distinguish it from standard feedforward networks. Finally, we introduce a variant of the Ladder Network that yields to state-of-the-art results for the Permutation-Invariant MNIST classification task in both semi- and fully- supervised settings.fr
dcterms.languageengfr


Fichier·s constituant ce document

Vignette

Ce document figure dans la ou les collections suivantes

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.