Méta-enseignement : génération active d’exemples par apprentissage par renforcement
Thèse ou mémoire
2020-05 (octroi du grade: 2020-12-16)
Auteur·e·s
Cycle d'études
MaîtriseProgramme
InformatiqueMots-clés
- Intelligence artificielle
- Apprentissage automatique
- Apprentissage actif
- Apprentissage par renforcement
- Méta-apprentissage
- Recherche opérationnelle
- Artificial intelligence
- Machine Learning
- Active Learning
- Reinforcement Learning
- Metalearning
- Operational Research
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Résumé·s
Le problème d’intérêt est un problème d’optimisation discrète dont on tente d’approximer les
solutions des instances particulières à l’aide de réseaux de neurones. Un obstacle à résoudre ce
problème par apprentissage automatique réside dans le coût d’étiquettage élevé (et variable)
des différentes instances, rendant coûteuse et difficile la génération d’un ensemble de données
étiquettées. On propose une architecture d’apprentissage actif, qu’on nomme architecture de
méta-enseignement, dans le but de pallier à ce problème. On montre comment on combine
plusieurs modèles afin de résoudre ce problème d’apprentissage actif, formulé comme un
problème de méta-apprentissage, en utilisant un agent d’apprentissage par renforcement
pour la génération active d’exemples. Ainsi, on utilise des concepts de plusieurs domaines
de l’apprentissage automatique dont des notions d’apprentissage supervisé, d’apprentissage
actif, d’apprentissage par renforcement, ainsi que des réseaux récurrents. Dans ce travail
exploratoire, on évalue notre méthodologie sur un problème simple, soit celui de classifier
des mains de poker en 10 classes pré-établies. On teste notre architecture sur ce problème
jouet dans le but de simplifier l’analyse. Malheureusement, l’avantage d’utiliser l’architecture
de génération active n’est pas significatif. On expose ensuite plusieurs pistes de réflexion
sur certaines observations à approfondir dans de futurs travaux, comme la définition de la
fonction de récompense. Dans de futurs projets, il serait également intéressant d’utiliser un
problème plus similaire au problème d’optimisation initial qui comporterait, entre autres,
des coûts d’étiquettage variables. The motivating application behind this architecture is a discrete optimisation problem
whose solution we aim to predict using neural networks. A main challenge of solving this
problem by machine learning lies in the high (and variable) labelling cost associated to
the various instances, which leads to an expensive and difficult dataset generation. We
propose an active learning architecture, called meta-teaching, to address this problem. We
show how we combine several models to solve the active learning problem, formulated as
a metalearning problem, by using a reinforcement learning agent to actively generate new
instances. Therefore, we use concepts from various areas of machine learning, including
supervised learning, active learning, reinforcement learning and recurrent networks. In this
exploratory work, we evaluate our method on a simpler problem, which is to classify poker
hands in 10 predefined classes. We test our architecture on this toy dataset in order to
simplify the analysis. Unfortunately, we do not achieve a significant advantage using our
active generation architecture on this dataset. We outline avenues for further reflections,
including the definition of the reward function. In future projects, using a more similar
problem to our problem of interest having, among others, a variable labelling cost, would
be interesting.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.