Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques

Malenfant, Bruno

dc.contributor.advisor	Lapalme, Guy
dc.contributor.author	Malenfant, Bruno
dc.date.accessioned	2018-06-11T15:46:35Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2018-06-11T15:46:35Z
dc.date.issued	2018-03-21
dc.date.submitted	2016-12
dc.identifier.uri	http://hdl.handle.net/1866/20492
dc.subject	informatique	fr
dc.subject	linguistique	fr
dc.subject	langue naturelle	fr
dc.subject	résumé automatique	fr
dc.subject	analyse d'articles scientifiques	fr
dc.subject	Computer science	fr
dc.subject	Linguistic	fr
dc.subject	Natural language	fr
dc.subject	Automatic summarization	fr
dc.subject	Scientific paper analysis	fr
dc.subject.other	Applied Sciences - Computer Science / Sciences appliqués et technologie - Informatique (UMI : 0984)	fr
dc.title	Utilisation des citations pour le résumé automatique de la contribution d'articles scientifiques	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	fr
etd.degree.name	Ph. D.	fr
dcterms.abstract	Cette thèse cherche à construire des outils pour la communauté scientifique. Une des tâches d'un chercheur est la lecture d'articles scientifiques, que ce soit pour les comparer, pour identifier de nouveaux problèmes, pour situer son travail dans la littérature courante ou pour définir des propositions de recherche. Nous avons appliqué, combiné et modifié des techniques de résumé automatique pour la littérature scientifique. L'idée est de construire le résumé à partir de l'information que d'autres chercheurs ont retenue d'un l'article de référence. Plus particulièrement, le texte des citations vers l'article de référence est utilisé pour constituer la base du résumé. Ce résumé est donc construit à partir de l'analyse de plusieurs autres qui le citent. Une citation est un élément qu'un autre auteur (ou le même) a retenu en lisant l'article. À l'intérieur d'une citation, il y a une description des liens entre plusieurs articles. Cette information n'étant pas disponible lors de l'écriture de l'article, cela lui ajoute un niveau d'interprétation et nous donne un indice sur l'apport de l'article à la communauté scientifique. Pour construire le résumé d'un article, nous trouvons tous les articles qui lui font référence à l'aide d'une base de données RDF construite à partir des données de l'ACL Anthology Network. Ensuite, les citations sont extraites et classées selon leur contexte rhétorique. Afin de construire le résumé à l'aide de l'information trouvée, une technique basée sur la Maximal Marginal Relevance choisit certaines phrases parmi les citations en évitant la redondance. Finalement, le résumé est amélioré à l'aide d'extraits du texte original.	fr
dcterms.abstract	The goals of this thesis are to build and improve tools for the scientific community. One of the tasks of a researcher is to read scientific papers, in order to compare them, identify new problems, place the work within the current literature or define new research proposals. We applied, combined and modified techniques of automatic summarization for the scientific literature. The underlying idea is to build the summary from the information that other researchers retained from a given paper called a reference paper. More particularly, the text of citations towards the reference paper is used for the base of the summary. The summary of the reference paper will thus be built from the analysis from several others who quote it. A citation is an element which another author (or the same) remembered from reading the paper. Inside a citation, there is a description of the links between several papers. This information was not available when writing the original paper, it thus adds a level of interpretation to the paper. It gives an indication of the contribution of the paper to the scientific community. The set of citations reflects the opinion of the scientific community (community insight). To build the summary of a paper, we find papers which reference to it. For this, we use a RDF database built from the data from the ACL Anthology Network. Then citations are extracted and classified according to their rhetorical context. To build the summary, we use a Maximal Marginal Relevance based technique to choose sentences among citations while avoiding the redundancy. Finally, the summary is improved by adding extracts from the original text.	fr
dcterms.language	fra	fr

Files in this item

Name:: Malenfant_Bruno_2016_these.pdf
Size:: 4.370Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24492]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1189]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.