CONGÉ DES FÊTES 2024 : Veuillez noter qu'il n'y aura pas de suivi des dépôts des thèses, mémoires et travaux étudiants après le 23 décembre 2024. Retour aux délais réguliers dès le 6 janvier 2025. ------------- ❄⛄❄ ------------- HOLIDAY BREAK 2024: Please note that there will be no follow-up on thesis, dissertations and student papers submissions after December 23, 2024. Regular deadlines will resume on January 6, 2025.

Afficher la notice

dc.contributor.advisorBengio, Yoshua
dc.contributor.advisorFrejinger, Emma
dc.contributor.authorLarocque, Stéphanie
dc.date.accessioned2021-01-22T14:30:29Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2021-01-22T14:30:29Z
dc.date.issued2020-12-16
dc.date.submitted2020-05
dc.identifier.urihttp://hdl.handle.net/1866/24323
dc.subjectIntelligence artificiellefr
dc.subjectApprentissage automatiquefr
dc.subjectApprentissage actiffr
dc.subjectApprentissage par renforcementfr
dc.subjectMéta-apprentissagefr
dc.subjectRecherche opérationnellefr
dc.subjectArtificial intelligencefr
dc.subjectMachine Learningfr
dc.subjectActive Learningfr
dc.subjectReinforcement Learningfr
dc.subjectMetalearningfr
dc.subjectOperational Researchfr
dc.subject.otherApplied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)fr
dc.titleMéta-enseignement : génération active d’exemples par apprentissage par renforcementfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineInformatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractLe problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable) des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion sur certaines observations à approfondir dans de futurs travaux, comme la définition de la fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un problème plus similaire au problème d’optimisation initial qui comporterait, entre autres, des coûts d’étiquettage variables.fr
dcterms.abstractThe motivating application behind this architecture is a discrete optimisation problem whose solution we aim to predict using neural networks. A main challenge of solving this problem by machine learning lies in the high (and variable) labelling cost associated to the various instances, which leads to an expensive and difficult dataset generation. We propose an active learning architecture, called meta-teaching, to address this problem. We show how we combine several models to solve the active learning problem, formulated as a metalearning problem, by using a reinforcement learning agent to actively generate new instances. Therefore, we use concepts from various areas of machine learning, including supervised learning, active learning, reinforcement learning and recurrent networks. In this exploratory work, we evaluate our method on a simpler problem, which is to classify poker hands in 10 predefined classes. We test our architecture on this toy dataset in order to simplify the analysis. Unfortunately, we do not achieve a significant advantage using our active generation architecture on this dataset. We outline avenues for further reflections, including the definition of the reward function. In future projects, using a more similar problem to our problem of interest having, among others, a variable labelling cost, would be interesting.fr
dcterms.languagefrafr


Fichier·s constituant ce document

Vignette

Ce document figure dans la ou les collections suivantes

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.