Leveraging noisy side information for disentangling of factors of variation in a supervised setting
Thesis or Dissertation
2014-08 (degree granted: 2015-02-18)
Author(s)
Level
Master'sDiscipline
InformatiqueKeywords
- réseaux de neurones
- apprentissage profond
- apprentissage supervisé
- réseaux à convolutions
- vision par ordinateur
- reconnaissance de caractères manuscrits
- reconnaissance d'expressions faciales
- invariance
- démêlage des facteurs de variation
- apprentissage multi-tâche
- neural networks
- deep learning
- supervised learning
- convolutional networks
- computer vision
- handwritten digit recognition
- facial expression recognition
- multi-task learning
- invariance
- disentangling
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Abstract(s)
Ce mémoire est composé de trois articles et présente les résultats de travaux de recherche effectués dans le but d'améliorer les techniques actuelles permettant d'utiliser des données associées à certaines tâches dans le but d'aider à l'entraînement de réseaux de neurones sur une tâche différente.
Les deux premiers articles présentent de nouveaux ensembles de données créés pour permettre une meilleure évaluation de ce type de techniques d'apprentissage machine. Le premier article introduit une suite d'ensembles de données pour la tâche de reconnaissance automatique de chiffres écrits à la main. Ces ensembles de données ont été générés à partir d'un ensemble de données déjà existant, MNIST, auquel des nouveaux facteurs de variation ont été ajoutés. Le deuxième article introduit un ensemble de données pour la tâche de reconnaissance automatique d'expressions faciales. Cet ensemble de données est composé d'images de visages qui ont été collectées automatiquement à partir du Web et ensuite étiquetées.
Le troisième et dernier article présente deux nouvelles approches, dans le contexte de l'apprentissage multi-tâches, pour tirer avantage de données pour une tâche donnée afin d'améliorer les performances d'un modèle sur une tâche différente. La première approche est une généralisation des neurones Maxout récemment proposées alors que la deuxième consiste en l'application dans un contexte supervisé d'une technique permettant d'inciter des neurones à apprendre des fonctions orthogonales, à l'origine proposée pour utilisation dans un contexte semi-supervisé. The thesis is composed of three articles and presents the results of research done in order to improve the current methods for improving a neural network's performance on a given task by taking advantage of data from other tasks.
The two first articles present new datasets created to allow better evaluation of this type of machine learning methods. The first article introduces a dataset suite for the task of handwritten digit recognition. This dataset suite was created from the existing dataset MNIST to which new factors of variation have been added. The second article introduces a new dataset for the task of facial expression recognition. It is composed of images of faces that were automatically collected from the Web and then labelled.
The third and last article presents two new approaches to improving performance on a task of interest by leveraging labels from another task in the context of multi-task learning. The first approach is a generalization of the recently introduced Maxout Networks designed for multi-task learning. The second approach consists in the application in a fully-supervised setting of the previously introduced Contractive Discriminant Analysis penalty, originally used in the semi-supervised setting to make groups of neurons learn features orthogonal to each other.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.