Show item record

dc.contributor.advisorCourville, Aaron
dc.contributor.authorZhang, Ying
dc.date.accessioned2019-01-11T20:12:53Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2019-01-11T20:12:53Z
dc.date.issued2018-10-18
dc.date.submitted2018-04
dc.identifier.urihttp://hdl.handle.net/1866/21287
dc.subjectNeural networksfr
dc.subjectMachine learningfr
dc.subjectDeep learningfr
dc.subjectConvolutional neural networksfr
dc.subjectSequence modellingfr
dc.subjectSpeech recognitionfr
dc.subjectComplex representationfr
dc.subjectApprentissage automatiquefr
dc.subjectApprentissage profondfr
dc.subjectModélisation de séquencesfr
dc.subjectReconnaissance de la parolefr
dc.subjectRéseaux de neuronesfr
dc.subjectReprésentation complexefr
dc.subjectRéseaux de neurones convolutionnelsfr
dc.subject.otherApplied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)fr
dc.titleSequence to sequence learning and its speech applicationsfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractRecurrent Neural Networks (RNNs), which has the attractive properties of modelling sequences, has been dominant in speech field in the recent decades. Convolutional Neural Networks (CNNs) has been shown as an alternative to model sequences because of its capacity of reducing spectral variations and modeling spectral correlations in acoustic features for automatic speech recognition (ASR). Recent work suggests that complex numbers could be used as a richer feature representation than spectrum which may benefit the speech related tasks. In the thesis, we first cover the basic concepts in machine learning, building blocks of deep learning and discuss the popular methods that are capable of doing sequence-to-sequence modelling, specially convolutional neural networks, which is famous as a class of feed-forward nets. We then present two research work related to sequence-to-sequence modelling on speech. We introduce a new approach to address speech recognition with convolutional neural networks which shows the comparable results with their recurrent neural networks counterpart. In addition, we present a new model taking advantage of the representation in the complex domain and define complex convolutions, complex batch-normalization, complex weight initialization strategies. The new model results in state-of-the-art of speech spectrum prediction in a convolutional recurrent setting.fr
dcterms.abstractLes réseaux neuronaux récurrents (RNN) ont été dominants dans le domaine de la parole au cours des dernières décennies, étant donné leurs propriétés attrayantes de modélisation de séquence. Les réseaux neuronaux convolutionnels (CNN) ont été présentés comme une alternative pour la modélisation de séquences en raison de leur capacité à réduire les variations spectrales et à modéliser les corrélations spectrales dans les caractéristiques acoustiques pour la reconnaissance automatique de la parole (ASR). Des travaux récents suggèrent que les nombres complexes pourraient être utilisés comme une représentation de caractéristique plus riche que le spectre et qui pouvaient donc être bénéfique pour les tâches liées à la parole. Dans la thèse, nous abordons d’abord les concepts de base de l’apprentissage automatique, les blocs de construction de l’apprentissage profond et discutons des méthodes populaires capables de faire des modélisations séquentielles, en particulier des réseaux de neurones convolutionnels, célèbres en tant que réseaux feedfoward. Nous présentons ensuite deux travaux de recherche liés à la modélisation séquence-séquence sur la parole. Premierement, nous introduisons une nouvelle approche pour adresser la reconnaissance de la parole avec des réseaux de neurones convolutionnels qui montre des performances comparables avec leur homologue des réseaux neuronaux récurrents. Deuxièmement, nous présentons un nouveau mo- dèle, tirant parti de la représentation dans le domaine complexe, et définissons des circonvolutions complexes, des stratégies complexes de normalisation par lots et d’initialisation de poids complexes. Le modèle a atteint l’état de l’art de la tâche de prédiction du spectre de la parole dans un cadre récurrent convolutionnel.fr
dcterms.languageengfr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.