Analyzing the benefits of communication channels between deep learning models

Lacaille, Philippe

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Lacaille, Philippe
dc.date.accessioned	2019-06-10T15:15:08Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2019-06-10T15:15:08Z
dc.date.issued	2019-03-13
dc.date.submitted	2018-08
dc.identifier.uri	http://hdl.handle.net/1866/22128
dc.subject	Apprentissage automatique	fr
dc.subject	Apprentissage profond	fr
dc.subject	Communication	fr
dc.subject	Langage	fr
dc.subject	Professeur	fr
dc.subject	Étudiant	fr
dc.subject	Optimisation	fr
dc.subject	Gradient	fr
dc.subject	Machine learning	fr
dc.subject	Deep learning	fr
dc.subject	Communication	fr
dc.subject	Language	fr
dc.subject	Teacher	fr
dc.subject	Student	fr
dc.subject	Optimization	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Analyzing the benefits of communication channels between deep learning models	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Comme les domaines d’application des systèmes d’intelligence artificielle ainsi que les tâches associées ne cessent de se diversifier, les algorithmes d’apprentissage automatique et en particulier les modèles d’apprentissage profond et les bases de données requises au fonctionnement de ces derniers grossissent continuellement. Certains algorithmes permettent de mettre à l’échelle les nombreux calculs en sollicitant la parallélisation des données. Par contre, ces algorithmes requièrent qu’une grande quantité de données soit échangée afin de s’assurer que les connaissances partagées entre les cellules de calculs soient précises. Dans les travaux suivants, différents niveaux de communication entre des modèles d’apprentissage profond sont étudiés, en particulier l’effet sur la performance de ceux-ci. La première approche présentée se concentre sur la décentralisation des multiples calculs faits en parallèle avec les algorithmes du gradient stochastique synchrone ou asynchrone. Il s’avère qu’une communication simplifiée qui consiste à permettre aux modèles d’échanger des sorties à petite bande passante peut se montrer bénéfique. Dans le chapitre suivant, le protocole de communication est modifié légèrement afin d’y communiquer des instructions pour l’entraînement. En effet, cela est étudié dans un environnement simplifié où un modèle préentraîné, tel un professeur, peut personnaliser l’entraînement d’un modèle initialisé aléatoirement afin d’accélérer l’apprentissage. Finalement, une voie de communication où deux modèles d’apprentissage profond peuvent s’échanger un langage spécifiquement fabriqué est analysée tout en lui permettant d’être optimisé de différentes manières.	fr
dcterms.abstract	As artificial intelligence systems spread to more diverse and larger tasks in many domains, the machine learning algorithms, and in particular the deep learning models and the databases required to train them are getting bigger themselves. Some algorithms do allow for some scaling of large computations by leveraging data parallelism. However, they often require a large amount of data to be exchanged in order to ensure the shared knowledge throughout the compute nodes is accurate. In this work, the effect of different levels of communications between deep learning models is studied, in particular how it affects performance. The first approach studied looks at decentralizing the numerous computations that are done in parallel in training procedures such as synchronous and asynchronous stochastic gradient descent. In this setting, a simplified communication that consists of exchanging low bandwidth outputs between compute nodes can be beneficial. In the following chapter, the communication protocol is slightly modified to further include training instructions. Indeed, this is studied in a simplified setup where a pre-trained model, analogous to a teacher, can customize a randomly initialized model’s training procedure to accelerate learning. Finally, a communication channel where two deep learning models can exchange a purposefully crafted language is explored while allowing for different ways of optimizing that language.	fr
dcterms.language	eng	fr
UdeM.ORCIDAuteurThese	0000-0001-5712-6737	fr

Files in this item

Name:: Lacaille_Philippe_2018_memoire.pdf
Size:: 684.4Kb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24306]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1178]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.