On Deep Multiscale Recurrent Neural Networks

Chung, Junyoung

dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Chung, Junyoung
dc.date.accessioned	2019-04-18T19:23:03Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2019-04-18T19:23:03Z
dc.date.issued	2019-03-13
dc.date.submitted	2018-04
dc.identifier.uri	http://hdl.handle.net/1866/21588
dc.subject	Apprentissage profond	fr
dc.subject	Réseaux de neurones	fr
dc.subject	Réseaux de neurones récurrents	fr
dc.subject	Réseaux de neurones récurrents hiérarchiques	fr
dc.subject	Réseaux de neurones récurrents multi-échelle	fr
dc.subject	Modélisation du langage	fr
dc.subject	Traduction automatique	fr
dc.subject	Synthèse de parole	fr
dc.subject	Synthèse d’écriture manuscrite	fr
dc.subject	Auto-encodeur variationel	fr
dc.subject	Deep learning	fr
dc.subject	Neural networks	fr
dc.subject	Recurrent neural networks	fr
dc.subject	Hierarchical recurrent neural networks	fr
dc.subject	Multiscale recurrent neural networks	fr
dc.subject	Language modelling	fr
dc.subject	Machine translation	fr
dc.subject	Speech generation	fr
dc.subject	Handwriting generation	fr
dc.subject	Variational auto-encoders	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	On Deep Multiscale Recurrent Neural Networks	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	fr
etd.degree.name	Ph. D.	fr
dcterms.abstract	L’apprentissage profond a poussé l’étude des réseaux de neurones profonds et a conduit à des avancées significatives dans plusieurs domaines d’application de l’apprentissage automatique. Dans ce manuscrit, nous nous concentrons sur un sous- ensemble de ces modèles: les réseaux de neurones récurrents. La structure spécifique de ces réseaux fait de la modélisation de données temporelles, telles que les données textuelles ou de parole, leur point fort. Plusieurs domaines d’applications plus pratiques en font d’ailleurs leur composante essentielle, incluant la reconnaissance de parole, la synthèse de parole, la traduction automatique et l’apprentissage par renforcement. Cependent, notre compréhension des réseaux de neurones récurrents reste loin d’être complète, plusieurs problèmes spécifiques aux réseaux de neurones n’ont pas encore été r ésolus. Ce manuscrit inclut plusieurs pistes conduisant à des architectures de réseaux de neurones récurrents profond et multiéchelle. Dans un premier article, nous présentons un réseau récurrent pouvant contrôler son propre schéma de connectivité entre couches représentant des indices temporels consécutifs. Ces connexions entre temps consécutifs ne se limitent pas juste à des connexions sur un même niveau mais permettent à des couches de haut niveau de communiquer avec des couches plus basses, et vice-versa. Un ensemble d’unités barrage paramétriques est appris afin d’ouvrir ou de fermer les connexions qui conduisent le signal des couches précédentes temporellement. Nous étudions comment les informations des couches ascendantes sont utiles dans la modélisation de dépendences temporelles. Dans un deuxième article, nous étudions un système de traduction automatique neuronale reposant sur un décodeur par caractère. Ce travail est motivé par une question fondamentale: peut-on générer une suite de caractères en guise de traduc- tion au lieu d’une suite de mots? Afin de répondre à cette question, nous avons utilisé une architecture simple à deux niveaux et conçu un réseau de neurones plus complexe traitant les dynamiques rapides et lentes séparemment. Ce nouveau mo- dèle se base sur l’idée d’utiliser des composantes évoluants à différentes échelles afin de traiter les dépendences temporelles. Nous étudions dans un troisième article une architecture de réseau récurrent permettant la découverte des structures latentes d’une séquence. Cette nouvelle architecture s’appuie sur un ensemble d’unités limites permettant une segmentation en morceaux pertinents. Le réseau de neurones récurrent met à jour chaque couche cachée sur un rythme différent dépendant de l’état de ces unités limites. L’inclusion de ces unités limites nous permet de définir un nouveau mécanisme de miseàjour utilisant trois différents types d’opérations: chaque couche peut soit copier l’état précédent, mettre à jour cet état ou évacuer cet état vers l’état de plus haut niveau et réinitialiser le contexte. Enfin, un quatrième article se penche sur l’utilisation de variables latentes dans un réseau de neurones récurrent. La complexité et le rapport signal-bruit de données séquentielles comme la parole rendent la découverte de structures pertinentes dans ces données difficiles. Nous proposons une extension récurrente de l’auto-encodeur variationel afin d’introduire ces variables latentes et améliorer la performance dans la modélisation séquentielle, incluant celle de la parole et de l’écriture manuscrite.	fr
dcterms.abstract	Deep learning is a study of deep artificial neural networks that has led to several breakthroughs in many machine learning applications. In this thesis, a subgroup of deep learning models, known as recurrent neural networks is studied in depth. Recurrent neural networks are special types of artificial neural networks that possess more strength in modelling temporal structures of sequential data such as text and speech. Recurrent neural networks are used as the core module of many practical applications including speech recognition, text-to-speech, machine translation, machine comprehension, and question and answering. However, our understanding of recurrent neural networks is still limited, and some inherent problems with recurrent neural networks remain unresolved. This thesis includes a series of studies towards deep multiscale recurrent neural networks and novel architectures to overcome the inherent problems of recurrent neural networks. In the first article, we introduce a deep recurrent neural network that can adaptively control the connectivity patterns between layers at consecutive time steps. The recurrent connections between time steps are not only restricted to self-connections as the conventional recurrent neural networks do, but a higher-level layer can connect to the lower-level layers, and vice-versa. A set of parametrized scalar gating units is learned in order to open or close the connections that carry the feedback from the layers at the previous time step. We investigate how the top-down information can be useful for modelling temporal dependencies. In the second article, we study a neural machine translation system that exploits a character-level decoder. The motivation behind this work is to answer a fundamental question: can we generate a character sequence as translation instead of a sequence of words? In order to answer this question, we design a naive two-level recurrent neural network and a more advanced type of recurrent neural network that tries to capture faster and slower components separately with its layers. This proposed model is based on an idea of modelling time dependencies with multiple components that update with different timescales. In the third article, we investigate a framework that can discover the latent hierarchical structure in sequences with recurrent neural networks. The proposed framework introduces a set of boundary detecting units that are used to detect terminations of meaningful chunks. The recurrent neural network updates each hidden layer with different timescales based on the binary states of these boundary detecting units. The inclusion of the boundary detectors enables us to implement a novel update mechanism using three types of different operations. Each layer of the recurrent neural network can choose either to completely copy the dynamic state, to update the state or to flush the state to the upper-level layer and reset the context. Finally, in the fourth article, we study an inclusion of latent variables to recurrent neural networks. The complexity and high signal-to-noise ratio of sequential data such as speech make it difficult to learn meaningful structures from the data. We propose a recurrent extension of the variational auto-encoder in order to introduce high-level latent variables to recurrent neural networks and show performance improvements on sequences modelling tasks such as human speech signals and handwriting examples.	fr
dcterms.language	eng	fr

Files in this item

Name:: chung_junyoung_2018_these.pdf
Size:: 3.836Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24262]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1175]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.