🔗 Permalien : https://doi.org/1866/20492
Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques
Thèse ou mémoire
2016-12 (octroi du grade: 2018-03-21)
Auteur(s)
Directeur(s) de recherche
Cycle d'études
DoctoratProgramme
InformatiqueRésumé(s)
Cette thèse cherche à construire des outils pour la communauté scientifique.
Une des tâches d'un chercheur est la lecture d'articles scientifiques, que ce soit
pour les comparer, pour identifier de nouveaux problèmes, pour situer son
travail dans la littérature courante ou pour définir des propositions de recherche.
Nous avons appliqué, combiné et modifié des techniques de résumé automatique
pour la littérature scientifique. L'idée est de construire le résumé à partir
de l'information que d'autres chercheurs ont retenue d'un l'article de référence.
Plus particulièrement, le texte des citations vers l'article de référence est
utilisé pour constituer la base du résumé. Ce résumé est donc
construit à partir de l'analyse de plusieurs autres qui le citent.
Une citation est un élément qu'un autre auteur (ou le même) a retenu en lisant
l'article. À l'intérieur d'une citation, il y a une description des liens entre
plusieurs articles. Cette information n'étant pas disponible lors de l'écriture
de l'article, cela lui ajoute un niveau d'interprétation et nous
donne un indice sur l'apport de l'article à la communauté scientifique.
Pour construire le résumé d'un article, nous trouvons tous les articles qui lui
font référence à l'aide d'une base de données RDF construite à partir
des données de l'ACL Anthology Network. Ensuite, les citations sont extraites et
classées selon leur contexte rhétorique. Afin de construire le résumé à l'aide de
l'information trouvée, une technique basée sur la Maximal Marginal Relevance
choisit certaines phrases parmi les citations en évitant la redondance. Finalement,
le résumé est amélioré à l'aide d'extraits du texte original. The goals of this thesis are to build and improve tools for
the scientific community.
One of the tasks of a researcher is to read scientific papers,
in order to compare them, identify new problems, place
the work within the current literature or define new research
proposals.
We applied, combined and modified techniques of automatic summarization
for the scientific literature.
The underlying idea is to build the summary from the information that other
researchers retained from a given paper called a reference paper.
More particularly, the text of citations towards the reference paper
is used for the base of the summary.
The summary of the reference paper will thus be built from the analysis from
several others who quote it.
A citation is an element which another author (or the same) remembered
from reading the paper.
Inside a citation, there is a description of the links between
several papers.
This information was not available when writing the original paper,
it thus adds a level of interpretation to the paper.
It gives an indication of the contribution of the paper to the
scientific community.
The set of citations reflects the opinion
of the scientific community (community insight).
To build the summary of a paper, we find papers which
reference to it.
For this, we use a RDF database built from the data from
the ACL Anthology Network.
Then citations are extracted and classified according to their rhetorical context.
To build the summary, we use a Maximal Marginal Relevance based technique to
choose sentences among citations
while avoiding the redundancy.
Finally, the summary is improved by adding extracts from the original text.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.