La détection automatique multilingue d’énoncés biaisés dans Wikipédia

Aleksandrova, Desislava

dc.contributor.advisor	Lareau, François
dc.contributor.author	Aleksandrova, Desislava
dc.date.accessioned	2021-05-31T18:43:19Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2021-05-31T18:43:19Z
dc.date.issued	2021-03-24
dc.date.submitted	2020-11
dc.identifier.uri	http://hdl.handle.net/1866/25107
dc.subject	Biais	fr
dc.subject	Neutralité	fr
dc.subject	Classification	fr
dc.subject	Multilingue	fr
dc.subject	Corpus	fr
dc.subject	Wikipédia	fr
dc.subject	Bias	fr
dc.subject	Neutrality	fr
dc.subject	Multilingual	fr
dc.subject	Corpora	fr
dc.subject.other	Language - Linguistics / Langues - Linguistique (UMI : 0290)	fr
dc.title	La détection automatique multilingue d’énoncés biaisés dans Wikipédia	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Linguistique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M.A.	fr
dcterms.abstract	Nous proposons une méthode multilingue pour l'extraction de phrases biaisées de Wikipédia, et l'utilisons pour créer des corpus en bulgare, en français et en anglais. En parcourant l'historique des révisions des articles, nous cherchons ceux qui, à un moment donné, avaient été considérés en violation de la politique de neutralité de Wikipédia (et corrigés par la suite). Pour chacun de ces articles, nous récupérons la révision signalée comme biaisée et la révision qui semble avoir corrigé le biais. Ensuite, nous extrayons les phrases qui ont été supprimées ou réécrites dans cette révision. Cette approche permet d'obtenir suffisamment de données même dans le cas de Wikipédias relativement petites, comme celle en bulgare, où de 62 000 articles nous avons extrait 5 000 phrases biaisées. Nous évaluons notre méthode en annotant manuellement 520 phrases pour le bulgare et le français, et 744 pour l'anglais. Nous évaluons le niveau de bruit, ses sources et analysons les formes d’expression de biais. Enfin, nous utilisons les données pour entrainer et évaluer la performance d’algorithmes de classification bien connus afin d’estimer la qualité et le potentiel des corpus.	fr
dcterms.abstract	We propose a multilingual method for the extraction of biased sentences from Wikipedia, and use it to create corpora in Bulgarian, French and English. Sifting through the revision history of the articles that at some point had been considered biased and later corrected, we retrieve the last tagged and the first untagged revisions as the before/after snapshots of what was deemed a violation of Wikipedia’s neutral point of view policy. We extract the sentences that were removed or rewritten in that edit. The approach yields sufficient data even in the case of relatively small Wikipedias, such as the Bulgarian one, where 62k articles produced 5 thousand biased sentences. We evaluate our method by manually annotating 520 sentences for Bulgarian and French, and 744 for English. We assess the level of noise and analyze its sources. Finally, we exploit the data with well-known classification methods to detect biased sentences.	fr
dcterms.language	fra	fr

Files in this item

Name:: Aleksandrova_Desislava_2020_Me ...
Size:: 868.2Kb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24400]
Faculté des arts et des sciences – Département de linguistique et de traduction - Thèses et mémoires [296]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.