Sur la génération d'exemples pour réduire le coût d'annotation

Piedboeuf, Frédéric

dc.contributor.advisor	Langlais, Philippe
dc.contributor.author	Piedboeuf, Frédéric
dc.date.accessioned	2024-06-18T19:33:26Z
dc.date.available	NO_RESTRICTION	fr
dc.date.available	2024-06-18T19:33:26Z
dc.date.issued	2024-05-22
dc.date.submitted	2024-03
dc.identifier.uri	http://hdl.handle.net/1866/33393
dc.subject	Intelligence artificielle	fr
dc.subject	traitement des langues	fr
dc.subject	apprentissage supervisé	fr
dc.subject	jeux de données	fr
dc.subject	augmentation de données	fr
dc.subject	modèles génératifs	fr
dc.subject	MQS	fr
dc.subject	Petites données	fr
dc.subject	Artificial Intelligence	fr
dc.subject	Natural Language Processing	fr
dc.subject	Supervised Learning	fr
dc.subject	Datasets	fr
dc.subject	Data Augmentation	fr
dc.subject	Generative Models	fr
dc.subject	Synthesized Query Learning	fr
dc.subject	Small Data	fr
dc.subject.other	Artificial intelligence / Intelligence artificielle (UMI : 0800)	fr
dc.title	Sur la génération d'exemples pour réduire le coût d'annotation	fr
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Informatique	fr
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	fr
etd.degree.name	Ph. D.	fr
dcterms.abstract	L'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée. La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace.	fr
dcterms.abstract	Modern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis. The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.	fr
dcterms.language	fra	fr
UdeM.ORCIDAuteurThese	0000-0003-3537-3803	fr

Fichier·s constituant ce document

Nom:: Piedboeuf_Frederic_2024_these.pdf
Taille:: 1.963Mo
Format:: PDF
Description:: Thèse

Ce document figure dans la ou les collections suivantes

Thèses et mémoires électroniques de l’Université de Montréal [24186]
Faculté des arts et des sciences – Département d'informatique et de recherche opérationnelle - Thèses et mémoires [1173]

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.