WikiGames : une plateforme de jeux dédiée à la validation d’une base de connaissances produite à partir de techniques d’extraction d’information ouverte
Thesis or Dissertation
2017-08 (degree granted: 2018-03-21)
Author(s)
Advisor(s)
Level
Master'sDiscipline
InformatiqueKeywords
Abstract(s)
L’extraction d’information ouverte permet la création de larges collections de triplets
relationnels à partir de corpus de textes non structurés. Ces larges collections de triplets
extraits contiennent souvent une grande quantité de triplets bruités n’apportant aucune
information utile. Ces collections peuvent atteindre des tailles rendant la validation manuelle
trop longue pour être réalisées par un petit groupe de personnes en un temps
convenable et il serait dans bien des cas trop dispendieux pour ces équipes d’engager le
personnel nécessaire pour cette tâche.
L’utilisation de jeux à des fins de production participative a permis, lors de tâches
similaires, de recueillir un grand ensemble de bénévoles. Nous nous sommes donc intéressés
à inférer, à partir d’une de ces collections de triplets bruités qui fut précédemment
générée à partir de techniques d’extraction d’information ouverte, un ensemble de
connaissances potentiellement utiles et pertinentes et avons ensuite amorcé la validation
de cette base de connaissances par l’intermédiaire d’une plateforme de jeux. Open information extraction techniques can generate a large amount of relation triplets
from unstructured corpus of texts. These large collections of triplets often contain a good
portion of noisy triplets that brings little to no usable information. These collections
of triplets can become too large to be manually validated by most small teams in a
reasonable amount of time and hiring the number of validators required for such task
would be too costly for most teams. The use of games as a crowdsourcing tool has
shown great success in acquiring a large pool of volunteer for the realization of similar
tasks.
We have therefore looked into the extraction of a set of useful knowledge from a
rather large and noisy relation triplets collection that was previously extracted using an
open information extraction tool. We have then started the process of validating the
resulting knowledge base with the help of a games with a purpose platform.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.