Latent variable language models

Tan, Shawn

dc.contributor.advisor	Courville, Aaron
dc.contributor.author	Tan, Shawn
dc.date.accessioned	2019-06-10T15:21:16Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2019-06-10T15:21:16Z
dc.date.issued	2019-03-13
dc.date.submitted	2018-08
dc.identifier.uri	http://hdl.handle.net/1866/22131
dc.subject	language models	fr
dc.subject	probabilistic models	fr
dc.subject	deep learning	fr
dc.subject	neural networks	fr
dc.subject	latent variables	fr
dc.subject	Réseaux de neurones	fr
dc.subject	Apprentissage automatique	fr
dc.subject	Apprentissage profond	fr
dc.subject	Modèles génératifs	fr
dc.subject	Compréhension du langage naturel	fr
dc.subject	Traitement du langage naturel	fr
dc.subject	Modèles de langage	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Latent variable language models	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	There has been a renewed interest in generative modeling/unsupervised learning for language for downstream natural language understanding tasks. In this thesis, we explore the augmentation of standard language models with latent variables. In the first chapter, we provide a brief introduction of language models, the classical n-gram treatment and the more common Neural Language Models in use today. We also briefly introduce variational autoencoders and the recent work improving upon them. In Chapter 2, we review work that explores the space where latent variable models and language models intersect. We then empirically analyse the effectiveness of a couple of these methods. In particular, we re-implement the models from Bowman et al. (2015) and Yang et al. (2017), and benchmark them against the Penn Treebank dataset with some experiments of our own. In Chapter 3, we discuss an ICML submission: Generating Contradictions, Entailments and Neutral Sentences. In this work, we encode source sentences to a latent distribution space and attempt to manipulate it from there to generate sentences corresponding to the given logical entailment. While our efforts are unsuccessful, we believe that enabling controllable latent variable distributions is an interesting direction to pursue. In Chapter 4, we conclude with a review of the content covered in the thesis, and a higher-level discussion of what possible avenues of future work could resemble.	fr
dcterms.abstract	Dernièrement, il y a eu un renouvellement d'intérêts dans l'application de modèles génératifs en compréhension de la langue. Dans ce mémoire, nous explorons l'ajout de variables latentes dans les modèles de langues traditionnels. Dans le chapitre 1, nous introduisons brièvement les modèles de langues, notamment les modèles n-gram et les modèles de langue neuronaux, couramment utilisés de nos jours. Nous présentons également les auto-encodeurs variationnels ainsi que différents moyens d'améliorer leur performance. Dans le chapitre 2, nous passons en revue les travaux ou des modèles à variables latentes sont appliqués en modélisation de la langue. Nous analysons également l'efficacité de plusieurs de ces méthodes. En particulier, nous analysons les modèles de cite bowman2015generating et cite yang2017improved, et les évaluons entre autres sur Penn Treebank. Dans le chapitre 3, nous présentons un article encore non publié: Generating Contradictions, Entailments and Neutral Sentences. Dans ce travail, nous encodons des phrases sources dans une distribution latente. Nous manipulons par la suite cet espace afin de générer des phrases correspondant à certaines implications logiques. Malgré nos efforts infructueux, nous croyons que l'utilisation de variables latentes contrôlables est une direction intéressante à suivre. Dans le chapitre 4, nous concluons avec un bref survol du mémoire et discutons des travaux futurs possibles.	fr
dcterms.language	eng	fr

Files in this item

Name:: Tan_Shawn_2018_These.pdf
Size:: 1.977Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24446]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1182]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.