Exploring Attention Based Model for Captioning Images
Thèse ou mémoire
2017-12 (octroi du grade: 2018-03-21)
Auteur·e·s
Cycle d'études
MaîtriseProgramme
InformatiqueMots-clés
- Reseaux de Neurones
- Generation de Description
- Apprentissage Profond
- Apprentissage de Representations
- Apprentissage Supervise
- Inference Variationelle
- Apprentissage par Renforcement
- Attention
- Modelisation de Donnees Sequentielles
- Neural Networks
- Caption Generation
- Deep Learning
- Representation Learning
- Supervised Learning
- Variational Inference
- Reinforcement Learning
- Attention
- Sequence Modelling
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Résumé·s
Comprendre ce qu’il y a dans une image est l’enjeu primaire de la vision par ordinateur. Depuis 2012, les réseaux de neurones se sont imposés comme le modèle de facto pour de nombreuses applications d’apprentissage automatique. Inspirés par les récents travaux en traduction automatique et en détection d’objet, cette thèse s’intéresse aux modèles capables de décrire le contenu d’une image et explore comment la notion d’attention peut être parametrisée par des réseaux de neurones et utilisée pour la description d’image.
Cette thèse presente un reseau de neurones base sur l’attention qui peut décrire le contenu d’images, et explique comment apprendre ce modèle de facon déterministique par backpropagation ou de facon stochastique avec de l’inférence variationnelle ou de l’apprentissage par renforcement.
Etonnamment, nous montrons que le modèle apprend automatiquement a concentrer son attention sur les objets correspondant aux mots dans la phrase prédite. Cette notion d’attention obtient l’état de l’art sur trois benchmarks: Flickr9k, Flickr30k and MS COCO. Understanding the content of images is arguably the primary goal of computer
vision. Beyond merely saying what is in an image, one test of a system's understanding
of an image is its ability to describe the contents of an image in natural
language (a task we will refer to in this thesis as \image captioning").
Since 2012, neural networks have exploded as the defacto modelling tool for
many important applications in machine learning. Inspired by recent work in machine
translation and object detection, this thesis explores such models that can
describe the content of images. In addition, it explores how the notion of \attention"
can be both parameterized by neural networks and usefully employed for
image captioning.
More technically, this thesis presents a single attention based neural network
that can describe images. It describes how to train such models in a purely deterministic
manner using standard backpropagation and stochastically by considering
techniques used in variational inference and reinforcement learning. Surprisingly,
we show through visualization how the model is able to automatically learn an
intuitive gaze of salient objects corresponding to words in the output sequence. We
validate the use of an attention based approach with state-of-the-art performance
three benchmark datasets: Flickr9k, Flickr30k and MS COCO.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.