Show item record

dc.contributor.advisorLareau, François
dc.contributor.authorAleksandrova, Desislava
dc.date.accessioned2021-05-31T18:43:19Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2021-05-31T18:43:19Z
dc.date.issued2021-03-24
dc.date.submitted2020-11
dc.identifier.urihttp://hdl.handle.net/1866/25107
dc.subjectBiaisfr
dc.subjectNeutralitéfr
dc.subjectClassificationfr
dc.subjectMultilinguefr
dc.subjectCorpusfr
dc.subjectWikipédiafr
dc.subjectBiasfr
dc.subjectNeutralityfr
dc.subjectMultilingualfr
dc.subjectCorporafr
dc.subject.otherLanguage - Linguistics / Langues - Linguistique (UMI : 0290)fr
dc.titleLa détection automatique multilingue d’énoncés biaisés dans Wikipédiafr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineLinguistiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM.A.fr
dcterms.abstractNous proposons une méthode multilingue pour l'extraction de phrases biaisées de Wikipédia, et l'utilisons pour créer des corpus en bulgare, en français et en anglais. En parcourant l'historique des révisions des articles, nous cherchons ceux qui, à un moment donné, avaient été considérés en violation de la politique de neutralité de Wikipédia (et corrigés par la suite). Pour chacun de ces articles, nous récupérons la révision signalée comme biaisée et la révision qui semble avoir corrigé le biais. Ensuite, nous extrayons les phrases qui ont été supprimées ou réécrites dans cette révision. Cette approche permet d'obtenir suffisamment de données même dans le cas de Wikipédias relativement petites, comme celle en bulgare, où de 62 000 articles nous avons extrait 5 000 phrases biaisées. Nous évaluons notre méthode en annotant manuellement 520 phrases pour le bulgare et le français, et 744 pour l'anglais. Nous évaluons le niveau de bruit, ses sources et analysons les formes d’expression de biais. Enfin, nous utilisons les données pour entrainer et évaluer la performance d’algorithmes de classification bien connus afin d’estimer la qualité et le potentiel des corpus.fr
dcterms.abstractWe propose a multilingual method for the extraction of biased sentences from Wikipedia, and use it to create corpora in Bulgarian, French and English. Sifting through the revision history of the articles that at some point had been considered biased and later corrected, we retrieve the last tagged and the first untagged revisions as the before/after snapshots of what was deemed a violation of Wikipedia’s neutral point of view policy. We extract the sentences that were removed or rewritten in that edit. The approach yields sufficient data even in the case of relatively small Wikipedias, such as the Bulgarian one, where 62k articles produced 5 thousand biased sentences. We evaluate our method by manually annotating 520 sentences for Bulgarian and French, and 744 for English. We assess the level of noise and analyze its sources. Finally, we exploit the data with well-known classification methods to detect biased sentences.fr
dcterms.languagefrafr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.