Intégration de VerbNet dans un réalisateur profond
Thesis or Dissertation
2018-08 (degree granted: 2018-10-18)
Author(s)
Advisor(s)
Level
Master'sDiscipline
LinguistiqueKeywords
Abstract(s)
La génération automatique de texte (GAT) a comme objectif de produire du texte compréhensible
en langue naturelle à partir de données non-linguistiques. Les générateurs font essentiellement
deux tâches : d’abord ils déterminent le contenu d’un message à communiquer,
puis ils sélectionnent les mots et les constructions syntaxiques qui serviront à transmettre le
message, aussi appellée la réalisation linguistique. Pour générer des textes aussi naturels que
possible, un système de GAT doit être doté de ressources lexicales riches. Si on veut avoir
un maximum de flexibilité dans les réalisations, il nous faut avoir accès aux différentes propriétés
de combinatoire des unités lexicales d’une langue donnée. Puisque les verbes sont au
coeur de chaque énoncé et qu’ils contrôlent généralement la structure de la phrase, il faudrait
encoder leurs propriétés afin de produire du texte exploitant toute la richesse des langues.
De plus, les verbes ont des propriétés de combinatoires imprévisibles, c’est pourquoi il faut
les encoder dans un dictionnaire.
Ce mémoire porte sur l’intégration de VerbNet, un dictionnaire riche de verbes de l’anglais
et de leurs comportements syntaxiques, à un réalisateur profond, GenDR. Pour procéder à
cette implémentation, nous avons utilisé le langage de programmation Python pour extraire
les données de VerbNet et les manipuler pour les adapter à GenDR, un réalisateur profond
basé sur la théorie Sens-Texte. Nous avons ainsi intégré 274 cadres syntaxiques à GenDR
ainsi que 6 393 verbes de l’anglais. Natural language generation’s (NLG) goal is to produce understandable text from nonlinguistic
data. Generation essentially consists in two tasks : first, determine the content of
a message to transmit and then, carefully select the words that will transmit the desired
message. That second task is called linguistic realization. An NLG system requires access to
a rich lexical ressource to generate natural-looking text. If we want a maximum of flexibility
in the realization, we need access to the combinatory properties of a lexical unit. Because
verbs are at the core of each utterance and they usually control its structure, we should
encode their properties to generate text representing the true richness of any language. In
addition to that, verbs are highly unpredictible in terms of syntactic behaviours, which is
why we need to store them into a dictionary.
This work is about the integration of VerbNet, a rich lexical ressource on verbs and
their syntactic behaviors, into a deep realizer called GenDR. To make this implementation
possible, we have used the Python programming language to extract VerbNet’s data and to
adapt it to GenDR. We have imported 274 syntactic frames and 6 393 verbs.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.