Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnels

Grégoire, Francis

dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Grégoire, Francis
dc.date.accessioned	2018-05-31T13:24:08Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2018-05-31T13:24:08Z
dc.date.issued	2018-05-10
dc.date.submitted	2017-12
dc.identifier.uri	http://hdl.handle.net/1866/20191
dc.subject	Extraction de phrases parallèles	fr
dc.subject	Traduction automatique	fr
dc.subject	Traitement automatique du langage naturel	fr
dc.subject	Apprentissage profond	fr
dc.subject	Réseaux de neurones récurrents	fr
dc.subject	Corpus parallèle	fr
dc.subject	Corpus comparable	fr
dc.subject	Parallel sentence extraction	fr
dc.subject	Machine translation	fr
dc.subject	Natural language processing	fr
dc.subject	Deep learning	fr
dc.subject	Recurrent neural networks	fr
dc.subject	Parallel corpora	fr
dc.subject	Comparable corpora	fr
dc.subject.other	Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)	fr
dc.title	Extraction de phrases parallèles à partir d’un corpus comparable avec des réseaux de neurones récurrents bidirectionnels	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les corpus parallèles sont cruciaux pour le bon fonctionnement des applications multilingues du traitement automatique du langage naturel. Comme ils sont des ressources essentielles, le nombre limité de corpus parallèles, que nous trouvons pour un nombre relativement faible de paires de langues sur très peu de domaines spécifiques, est problématique pour le développement des applications de traitement automatique du langage naturel. L'extraction de phrases parallèles est une tâche qui s'attaque directement au problème de manque de données en extrayant des phrases parallèles depuis l'importante quantité d'articles multilingues retrouvés sur le Web. Dans ce mémoire, nous proposons un système d'extraction de phrases parallèles qui mesure la relation de traduction entre les phrases dans deux langues. Notre système est une approche basée sur des réseaux de neurones récurrents bidirectionnels qui peut apprendre les représentations des phrases dans un espace vectoriel conjoint en maximisant explicitement la similarité entre les phrases parallèles. Contrairement aux approches précédentes, en exploitant ces représentations vectorielles continues des phrases nous enlevons le besoin d'utiliser plusieurs modèles et toute ingénierie de traits spécifiques. Notre approche s'entraîne directement avec des paires de phrases et s'adapte facilement à une grande quantité de données. Des expériences sur des corpus parallèles bruités montrent que notre approche surpasse un système de référence à l'état de l'art. Pour justifier l'utilité de notre approche, nous ajoutons les paires de phrases extraites des articles de Wikipédia à un corpus parallèle pour entraîner des systèmes de traduction automatique et nous obtenons une amélioration de la performance de traduction. Nos résultats empiriques nous amènent à croire que notre système est un outil prometteur pour créer de nouvelles ressources multilingues alignées.	fr
dcterms.abstract	Parallel corpora are a prerequisite for many multilingual natural language processing applications. As they are an invaluable resource, the limited amount of parallel data, which is only available for a relatively small number of language pairs on very few specific domains, is problematic for scaling natural language processing applications. Parallel sentence extraction is a task addressing the data sparsity problem by extracting parallel sentences from the increasing amount of content-related multilingual articles on the World Wide Web. In this thesis, we propose a parallel sentence extraction system to measure the translational equivalence between sentences in two languages. Our system is a bidirectional recurrent neural network based approach that can learn sentence representations in a shared vector space by explicitly maximizing the similarity between parallel sentences. In contrast to previous approaches, by leveraging these continuous vector representation of sentences we remove the need to rely on multiples models and any specific feature engineering. Our approach can be efficiently trained with raw sentence pairs and is scalable to large amount of data. Experiments on noisy parallel corpora show that our approach outperforms a state-of-the-art baseline. To justify the utility of our approach, we add the sentence pairs extracted from Wikipedia articles to a parallel corpus to train machine translation systems and show improvement in translation performance. Our experimental results lead us to believe that our system is a promising tool to create new aligned multilingual resources.	fr
dcterms.language	fra	fr

Fichier·s constituant ce document

Nom:: Gregoire_Francis_2017_memoire.pdf
Taille:: 2.483Mo
Format:: PDF
Description:: Mémoire

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [30922]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1474]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.