Deep Learning for Video Modelling
Thèse ou mémoire
2017-12 (octroi du grade: 2018-03-21)
Auteur·e·s
Directeur·trice·s de recherche
Cycle d'études
MaîtriseProgramme
InformatiqueMots-clés
- Réseaux de neurones
- Apprentissage machine
- Apprentissage profond
- Intelligence artificielle
- Vision par ordinateur
- Vidéos
- Modèles génératifs
- Neural networks
- Machine learning
- Deep learning
- Artificial intelligence
- Computer vision
- Generative models
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Résumé·s
Ce mémoire de maı̂trise présente une exploration des modèles génératifs dans le contexte de la vidéo. Ceci a demandé une étude approfondie des problèmes encourus par les chercheurs dans cette branche de la vision par ordinateur. Ce mémoire établi deux axes problématiques, celui venant des données et celui des modèles.
Concernant les données, les méthodes accomplissant l’état-de-l’art dans ce domaine sont appliqués sur des bases de données qui potentiellement sous représentent les défis existant dans les vidéos de tous les jours. Ainsi, il est possible que l’innovation évolue ultimement vers des cul-de-sacs et une nouvelle bases de données est suggérées afin de résoudre ce problème.
Quant aux modèles, la génération de vidéos est à la frontière des applications des procéssus génératifs. C’est un champs de recherche encore très ouvert aux découvertes de tailles car non seulement est-il devant des obstacles d’ingénieries, tant aux niveaux logiciels que physiques, mais il se trouve à être un véritable casse-tête. En apprentissage profond, la modélisation d’images statiques entre présentement dans une phase plus mature, mais qu’en est-il pour des séquences d’images et de leurs générations? De très récents modèles ont réussi d’impressionnantes générations image par image et exhibent de longues séquences sans dégradation rapide de la qualité visuelle. En analysant ceux-ci, ce mémoire propose le modèle feature flow comme un choix raisonnable à considérer pour cette tâche et espère convaincre pourquoi.
La génération comme sujet d’étude elle-même a fait également l’objet d’une attention particulière à travers ce mémoire. Il augmente le déjà populaire generative adversarial networks avec un mécanisme d’inférence, adversarially learned inference. Cette version améliorée excelle aux mêmes tâches que son prédécesseur tout en offrant une représentation abstraite des données grâce au mécanisme d’inférence. Il y a espoir lors de travaux futures d’exhiber tout son potentiel, l’élevant comme un choix de modèle important. This thesis presents an exploration of generative models in the context of video
generation. It focuses on an investigation of the problems faced by researchers
when working on this branch of computer vision. It is argued throughout this
thesis that video suffers from two main issues, namely on the data side and on the
model side.
Data-wise, current state-of-the-art models in this field are applied on datasets
that can potentially misrepresent the true challenges with real videos and pushes
model innovations in corners that could be dead ends on this task. A new dataset
is proposed in light of this situation that tries to fix these problems.
Model-wise, video generation is on the very frontier of generative applications.
It represents an area still very open for breakthrough since not only is it faced with
engineering, hardware and software obstacles, it also offers a real puzzle for models.
If deep learning modelling for static images is entering a more mature phase, how
does one transition to a sequence of images and moreover generate them? Very
recent models have yielded impressive next frame generations and are able to show
long sequences of frames that do not rapidly degrade. This thesis proposes the
feature flow model as a natural choice to consider when doing this task and hope
to reasonably argue as to why.
Generation as an object of study itself has also been given attention throughout
this thesis. It augments the already popular generative adversarial networks with an
inference mechanism, adversarially learned inference. This upgraded version excels
at the same tasks than its predecessor while offering an abstract representation
of its data through the inference procedure. There is hope for a display of its full
potential in future works setting it as a strong model choice.
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.