Automatic taxonomy evaluation

Gao, Tianjian

dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Gao, Tianjian
dc.date.accessioned	2023-05-15T15:13:01Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2023-05-15T15:13:01Z
dc.date.issued	2023-03-22
dc.date.submitted	2022-12
dc.identifier.uri	http://hdl.handle.net/1866/27942
dc.subject	Taxonomie	fr
dc.subject	Ontologie	fr
dc.subject	Apprentissage de taxonomie	fr
dc.subject	Évaluation d’ontologie	fr
dc.subject	Extraction de connaissances	fr
dc.subject	Représentation des connaissances	fr
dc.subject	Extraction de l’information	fr
dc.subject	Modélisation du langage	fr
dc.subject	Découverte d’hyperonymes	fr
dc.subject	Taxonomy	fr
dc.subject	Ontology	fr
dc.subject	Taxonomy learning	fr
dc.subject	Ontology evaluation	fr
dc.subject	Knowledge representation	fr
dc.subject	Knowledge extraction	fr
dc.subject	Information retrieval	fr
dc.subject	Information extraction	fr
dc.subject	Hypernym discovery	fr
dc.subject	Language modelling	fr
dc.subject.other	Artificial intelligence / Intelligence artificielle (UMI : 0800)	fr
dc.title	Automatic taxonomy evaluation	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Maîtrise / Master's	fr
etd.degree.name	M. Sc.	fr
dcterms.abstract	Les taxonomies sont une représentation essentielle des connaissances, jouant un rôle central dans de nombreuses applications riches en connaissances. Malgré cela, leur construction est laborieuse que ce soit manuellement ou automatiquement, et l'évaluation quantitative de taxonomies est un sujet négligé. Lorsque les chercheurs se concentrent sur la construction d'une taxonomie à partir de grands corpus non structurés, l'évaluation est faite souvent manuellement, ce qui implique des biais et se traduit souvent par une reproductibilité limitée. Les entreprises qui souhaitent améliorer leur taxonomie manquent souvent d'étalon ou de référence, une sorte de taxonomie bien optimisée pouvant service de référence. Par conséquent, des connaissances et des efforts spécialisés sont nécessaires pour évaluer une taxonomie. Dans ce travail, nous soutenons que l'évaluation d'une taxonomie effectuée automatiquement et de manière reproductible est aussi importante que la génération automatique de telles taxonomies. Nous proposons deux nouvelles méthodes d'évaluation qui produisent des scores moins biaisés: un modèle de classification de la taxonomie extraite d'un corpus étiqueté, et un modèle de langue non supervisé qui sert de source de connaissances pour évaluer les relations hyperonymiques. Nous constatons que nos substituts d'évaluation corrèlent avec les jugements humains et que les modèles de langue pourraient imiter les experts humains dans les tâches riches en connaissances.	fr
dcterms.abstract	Taxonomies are an essential knowledge representation and play an important role in classification and numerous knowledge-rich applications, yet quantitative taxonomy evaluation remains to be overlooked and left much to be desired. While studies focus on automatic taxonomy construction (ATC) for extracting meaningful structures and semantics from large corpora, their evaluation is usually manual and subject to bias and low reproducibility. Companies wishing to improve their domain-focused taxonomies also suffer from lacking ground-truths. In fact, manual taxonomy evaluation requires substantial labour and expert knowledge. As a result, we argue in this thesis that automatic taxonomy evaluation (ATE) is just as important as taxonomy construction. We propose two novel taxonomy evaluation methods for automatic taxonomy scoring, leveraging supervised classification for labelled corpora and unsupervised language modelling as a knowledge source for unlabelled data. We show that our evaluation proxies can exert similar effects and correlate well with human judgments and that language models can imitate human experts on knowledge-rich tasks.	fr
dcterms.description	This thesis would not be made possible without the generous support of IATA.	fr
dcterms.language	eng	fr

Files in this item

Name:: Gao_Tianjian_2022_memoire.pdf
Size:: 4.310Mb
Format:: PDF
Description:: Mémoire

This item appears in the following Collection(s)

Thèses et mémoires électroniques de l’Université de Montréal [24351]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1178]

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.