Show item record

dc.contributor.advisorLanglais, Philippe
dc.contributor.authorLamarche, Fabrice
dc.date.accessioned2023-12-12T20:09:47Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2023-12-12T20:09:47Z
dc.date.issued2023-11-01
dc.date.submitted2023-08
dc.identifier.urihttp://hdl.handle.net/1866/32226
dc.subjectextraction d'information ouvertefr
dc.subjectjeux de donnésfr
dc.subjectévaluationfr
dc.subjecttraitement automatique des langues naturellesfr
dc.subjectopen information extractionfr
dc.subjectdatasetsfr
dc.subjecttask evaluationfr
dc.subjectnatural language processingfr
dc.subject.otherArtificial intelligence / Intelligence artificielle (UMI : 0800)fr
dc.titleMéthodes d'évaluation en extraction d'information ouvertefr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractL’extraction d’information ouverte (OIE) est un domaine du traitement des langues naturelles qui a pour but de présenter les informations contenues dans un texte dans un format régulier permettant d’organiser, d’analyser et de réfléchir ces informations. De nombreux systèmes d’OIE existent et sont proposés, revendiquant des performances de plus en plus proches d’un idéal. Dans les dernières années, beaucoup de ces systèmes utilisent des architectures neuronales et leurs auteurs affirment être plus performant sur cette tâche que les méthodes précédentes. Afin d’établir ces performances et de les comparer les unes aux autres, il est nécessaire d’utiliser une référence. Celles-ci ont également évolué dans le temps et se veulent précises, objectives et proches de la réalité. Dans ce mémoire, nous proposons une nouvelle référence permettant de remédier à certaines limitations potentielles des méthodes d’évaluation actuelles. Cette référence comprend deux composantes principales soit une annotations manuelles de phrases candidates et une fonction permettant d’établir la concordance syntaxique entre différents faits extraits et annotés. De plus, nous proposons de nouvelles lignes directrice pour encadrer et mieux définir la tâche d’extraction d’information ouverte elle-même, ce qui permet de mieux quantifier et mesurer la quantité d’informations pertinentes extraites par les systèmes d’OIE. Nos expériences démontrent que notre référence suit de plus près ces lignes directrices que les références précédentes ,qu’elle parvient à mieux juger de la concordances entre les faits extraits et les faits annotés et qu’elle est plus souple dans son approche que la référence qui est à ce jour l’état de l’art. Notre nouvelle référence permet de tirer des conclusions intéressantes sur les performances réelles des systèmes d’extraction d'Information ouverte, notamment sur la réelle amélioration des systèmes plus récents par rapport aux méthodes classiques.fr
dcterms.abstractOpen Information Extraction (OIE) is a field of natural language processing whose aim is to present the information contained in a text in a regular format that allows that information to be organized, analyzed and reflected upon. Numerous OIE systems exist, claiming everincreasing levels of performance. In order to establish their performance and compare them, it is necessary to use a reference. These have also evolved over time, and are intended to be precise and objective, making it possible to identify the best-performing systems. In this thesis, we identify some of the limitations of current evaluation methods and propose a new benchmark to remedy them. This new benchmark comprises two main components : a manual annotation of candidate sentences and a function to establish syntactic concordance between different extracted and annotated facts. In addition, we propose new guidelines to frame and better define the open information extraction task itself, enabling us to better quantify and measure the amount of relevant information extracted by OIE systems. Our experiment shows that our benchmark follows these guidelines more closely than previous benchmarks, is better at judging the match between extracted and annotated facts, and is more flexible than the current state-of-the-art benchmarks. Our new benchmark allows us to draw some interesting conclusions about the actual performance of open information extraction systems. We show that the latest systems are not necessarily the best.fr
dcterms.languagefrafr
UdeM.ORCIDAuteurThese0009-0006-7387-2733fr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.