L’extraction de phrases en relation de traduction dans Wikipédia

Rebout, Lise

dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Rebout, Lise
dc.date.accessioned	2012-09-24T18:57:25Z
dc.date.available	NO_RESTRICTION	en
dc.date.available	2012-09-24T18:57:25Z
dc.date.issued	2012-09-04
dc.date.submitted	2012-06
dc.identifier.uri	http://hdl.handle.net/1866/8614
dc.subject	Alignement de phrases	en
dc.subject	Réseaux de neurones	en
dc.subject	Corpus comparables	en
dc.subject	Classifieurs	en
dc.subject	Systèmes de traduction statistiques	en
dc.subject	Algorithmes d'optimisation combinatoire	en
dc.subject	Sentence alignment	en
dc.subject	Neural networks	en
dc.subject	Comparable corpora	en
dc.subject	Classifiers	en
dc.subject	Statistical machine translation	en
dc.subject	Combinatorial optimization algorithms	en
dc.subject.other	Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)	en
dc.title	L’extraction de phrases en relation de traduction dans Wikipédia	en
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	en
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	en
etd.degree.name	M. Sc. A.	en
dcterms.abstract	Afin d'enrichir les données de corpus bilingues parallèles, il peut être judicieux de travailler avec des corpus dits comparables. En effet dans ce type de corpus, même si les documents dans la langue cible ne sont pas l'exacte traduction de ceux dans la langue source, on peut y retrouver des mots ou des phrases en relation de traduction. L'encyclopédie libre Wikipédia constitue un corpus comparable multilingue de plusieurs millions de documents. Notre travail consiste à trouver une méthode générale et endogène permettant d'extraire un maximum de phrases parallèles. Nous travaillons avec le couple de langues français-anglais mais notre méthode, qui n'utilise aucune ressource bilingue extérieure, peut s'appliquer à tout autre couple de langues. Elle se décompose en deux étapes. La première consiste à détecter les paires d’articles qui ont le plus de chance de contenir des traductions. Nous utilisons pour cela un réseau de neurones entraîné sur un petit ensemble de données constitué d'articles alignés au niveau des phrases. La deuxième étape effectue la sélection des paires de phrases grâce à un autre réseau de neurones dont les sorties sont alors réinterprétées par un algorithme d'optimisation combinatoire et une heuristique d'extension. L'ajout des quelques 560~000 paires de phrases extraites de Wikipédia au corpus d'entraînement d'un système de traduction automatique statistique de référence permet d'améliorer la qualité des traductions produites. Nous mettons les données alignées et le corpus extrait à la disposition de la communauté scientifique.	en
dcterms.abstract	Working with comparable corpora can be useful to enhance bilingual parallel corpora. In fact, in such corpora, even if the documents in the target language are not the exact translation of those in the source language, one can still find translated words or sentences. The free encyclopedia Wikipedia is a multilingual comparable corpus of several millions of documents. Our task is to find a general endogenous method for extracting a maximum of parallel sentences from this source. We are working with the English-French language pair but our method -- which uses no external bilingual resources -- can be applied to any other language pair. It can best be described in two steps. The first one consists of detecting article pairs that are most likely to contain translations. This is achieved through a neural network trained on a small data set composed of sentence aligned articles. The second step is to perform the selection of sentence pairs through another neural network whose outputs are then re-interpreted by a combinatorial optimization algorithm and an extension heuristic. The addition of the 560~000 pairs of sentences extracted from Wikipedia to the training set of a baseline statistical machine translation system improves the quality of the resulting translations. We make both the aligned data and the extracted corpus available to the scientific community.	en
dcterms.language	fra	en

Files in this item

Name:: Rebout_Lise_2012_memoire.pdf
Size:: 1.315Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [23678]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1149]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.