Show item record

dc.contributor.advisorLanglais, Philippe
dc.contributor.authorPiedboeuf, Frédéric
dc.date.accessioned2024-06-18T19:33:26Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2024-06-18T19:33:26Z
dc.date.issued2024-05-22
dc.date.submitted2024-03
dc.identifier.urihttp://hdl.handle.net/1866/33393
dc.subjectIntelligence artificiellefr
dc.subjecttraitement des languesfr
dc.subjectapprentissage superviséfr
dc.subjectjeux de donnéesfr
dc.subjectaugmentation de donnéesfr
dc.subjectmodèles génératifsfr
dc.subjectMQSfr
dc.subjectPetites donnéesfr
dc.subjectArtificial Intelligencefr
dc.subjectNatural Language Processingfr
dc.subjectSupervised Learningfr
dc.subjectDatasetsfr
dc.subjectData Augmentationfr
dc.subjectGenerative Modelsfr
dc.subjectSynthesized Query Learningfr
dc.subjectSmall Datafr
dc.subject.otherArtificial intelligence / Intelligence artificielle (UMI : 0800)fr
dc.titleSur la génération d'exemples pour réduire le coût d'annotationfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelDoctorat / Doctoralfr
etd.degree.namePh. D.fr
dcterms.abstractL'apprentissage machine moderne s'appuie souvent sur l'utilisation de jeux de données massifs, mais il existe de nombreux contextes où l'acquisition et la manipulation de grandes données n'est pas possible, et le développement de techniques d'apprentissage avec de petites données est donc essentiel. Dans cette thèse, nous étudions comment diminuer le nombre de données nécessaires à travers deux paradigmes d'apprentissage~: l'augmentation de données et l'apprentissage par requête synthétisée. La thèse s'organise en quatre volets, chacun démontrant une nouvelle facette concernant la génération d'exemples pour réduire le coût d'annotation. Le premier volet regarde l'augmentation de données pour des textes en anglais, ce qui nous permet d'établir une comparaison objective des techniques et de développer de nouveaux algorithmes. Le deuxième volet regarde ensuite l'augmentation de données dans les langues autres que l'anglais, et le troisième pour la tâche de génération de mots-clés en français. Finalement, le dernier volet s'intéresse à l'apprentissage par requête synthétisée, où les exemples générés sont annotés, en contraste à l'augmentation de données qui produit des exemples sans coût d'annotation supplémentaire. Nous montrons que cette technique permet de meilleures performances, particulièrement lorsque le jeu de données est large et l'augmentation de données souvent inefficace.fr
dcterms.abstractModern machine learning often relies on the use of massive datasets, but there are many contexts where acquiring and handling large data is not feasible, making the development of techniques for learning with small data essential. In this thesis, we investigate how to reduce the amount of data required through two learning paradigms~: data augmentation and membership query synthesis. The thesis is organized into four parts, each demonstrating a new aspect of generating examples to reduce annotation costs. The first part examines data augmentation for English text, allowing us to make an objective comparison of techniques and develop new algorithms. The second one then explores data augmentation in languages other than English, and the third focuses on the task of keyword generation in French. Finally, the last part delves into membership query synthesis, where generated examples are annotated, in contrast to data augmentation, which produces examples without additional annotation costs. We show that this technique leads to better performance, especially when the dataset is large and data augmentation is often ineffective.fr
dcterms.languagefrafr
UdeM.ORCIDAuteurThese0000-0003-3537-3803fr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.