Speech synthesis using recurrent neural networks

Rodríguez Sotelo, José Manuel

dc.contributor.advisor	Courville, Aaron
dc.contributor.advisor	Bengio, Yoshua
dc.contributor.author	Rodríguez Sotelo, José Manuel
dc.date.accessioned	2017-08-24T20:03:37Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2017-08-24T20:03:37Z
dc.date.issued	2017-07-12
dc.date.submitted	2016-12
dc.identifier.uri	http://hdl.handle.net/1866/19111
dc.subject	Réseaux de neurones	fr
dc.subject	Apprentissage automatique	fr
dc.subject	Apprentissage de représentations profondes	fr
dc.subject	Apprentissage de représentations	fr
dc.subject	Synthèse vocale	fr
dc.subject	Traitement du signal	fr
dc.subject	Optimisation	fr
dc.subject	Neural networks	fr
dc.subject	Machine learning	fr
dc.subject	Deep learning	fr
dc.subject	Representation learning	fr
dc.subject	Speech synthesis	fr
dc.subject	Signal processing	fr
dc.subject	Optimization	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Speech synthesis using recurrent neural networks	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les réseaux neuronaux récurrents sont des outils efficaces pour modeler les données à structure séquentielle. Dans ce mémoire, nous décrivons comment les utiliser pour la synthèse vocale. Nous commençons avec une introduction à l’apprentissage automatique et aux réseaux neuronaux dans le chapitre 1. Dans le chapitre 2, nous développons un gradient algorithmique stochastique automatique ayant pour effet de réduire le poids des recherches extensives hyper- paramétrées pour l’optimisateur. L’algorithme proposé exploite un estimateur de courbure du coût de la fonction de moindre variance, et utilise celui-ci pour obtenir un taux d’apprentissage adaptatif qui soit automatiquement calibré pour chaque paramètre. Dans le chapitre 3, nous proposons un modèle innovateur pour la génération audio inconditionnelle, basée sur la génération d’un seul échantillon audio à la fois. Nous montrons que notre modèle, qui prend avantage de la combination de modules sans mémoire (notamment les perceptrons autorégressifs à plusieurs couches et les réseaux de neurones récurrents dans une structure hiérarchique), est capable de capturer les sources de variation sous-jacentes dans les séquences temporelles, et ce, sur de très longs laps de temps, sur trois ensembles de données de nature différente. Les résultats de l’évaluation humaine à l’écoute des échantillons générés semblent indiquer que notre modèle est préféré à d’autres modèles de compétiteurs. Nous montrons aussi comment chaque composante du modèle contribue à ces performances. Dans le chapitre 4, nous présentons un modèle d’encodeur-décodeur focalisé sur la synthèse vocale. Notre modèle apprend à produire les caractéristiques acoustiques à partir d’une séquence de phonèmes ou de lettres. L’encodeur se constitue d’un réseau neuronal récurrent bidirectionnel acceptant des entrées sous forme de texte ou de phonèmes. Le décodeur se constitue, pour sa part, d’un réseau neuronal récurrent avec attention produisant les caractéristiques acoustiques. Par ailleurs, nous adaptons ce modèle, afin qu’il puisse réaliser la synthèse vocale de plusieurs individus, et nous la testons en anglais et en espagnol. Finalement, nous effectuons une réflection sur les résultats obtenus dans ce mémoire, afin de proposer de nouvelles pistes de recherche.	fr
dcterms.abstract	Recurrent neural networks are useful tools to model data with sequential structure. In this work, we describe how to use them for speech synthesis. We start with an introduction to machine learning and neural networks in Chapter 1. In Chapter 2, we develop an automatic stochastic gradient algorithm which reduces the burden of extensive hyper-parameter search for the optimizer. Our proposed algorithm exploits a lower variance estimator of curvature of the cost function and uses it to obtain an automatically tuned adaptive learning rate for each parameter. In Chapter 3, we propose a novel model for unconditional audio generation based on generating one audio sample at a time. We show that our model, which profits from combining memory-less modules, namely autoregressive multilayer perceptrons, and stateful recurrent neural networks in a hierarchical structure is able to capture underlying sources of variation in the temporal sequences over very long time spans, on three datasets of different nature. Human evaluation on the generated samples indicate that our model is preferred over competing models. We also show how each component of the model contributes to the exhibited performance. In Chapter 4, we present Char2Wav, an end-to-end model for speech synthesis. Char2Wav has two components: a reader and a neural vocoder. The reader is an encoder-decoder model with attention. The encoder is a bidirectional recurrent neural network (RNN) that accepts text or phonemes as inputs, while the decoder is a recurrent neural network with attention that produces vocoder acoustic features. Neural vocoder refers to a conditional extension of SampleRNN which generates raw waveform samples from intermediate representations. We show results in English and Spanish. Unlike traditional models for speech synthesis, Char2Wav learns to produce audio directly from text. Finally, we reflect on the results obtained in this work and propose future directions of research in the area.	fr
dcterms.language	eng	fr

Fichier·s constituant ce document

Nom:: Rodriguez_Sotelo_Jose_Manuel_2 ...
Taille:: 4.061Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24419]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1182]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.