Deep Learning for Video Modelling
Thesis or Dissertation
2017-12 (degree granted: 2018-03-21)
Author(s)
Advisor(s)
Level
Master'sDiscipline
InformatiqueKeywords
- Réseaux de neurones
- Apprentissage machine
- Apprentissage profond
- Intelligence artificielle
- Vision par ordinateur
- Vidéos
- Modèles génératifs
- Neural networks
- Machine learning
- Deep learning
- Artificial intelligence
- Computer vision
- Generative models
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Abstract(s)
Ce mémoire de maı̂trise présente une exploration des modèles génératifs dans le contexte de la vidéo. Ceci a demandé une étude approfondie des problèmes encourus par les chercheurs dans cette branche de la vision par ordinateur. Ce mémoire établi deux axes problématiques, celui venant des données et celui des modèles.
Concernant les données, les méthodes accomplissant l’état-de-l’art dans ce domaine sont appliqués sur des bases de données qui potentiellement sous représentent les défis existant dans les vidéos de tous les jours. Ainsi, il est possible que l’innovation évolue ultimement vers des cul-de-sacs et une nouvelle bases de données est suggérées afin de résoudre ce problème.
Quant aux modèles, la génération de vidéos est à la frontière des applications des procéssus génératifs. C’est un champs de recherche encore très ouvert aux découvertes de tailles car non seulement est-il devant des obstacles d’ingénieries, tant aux niveaux logiciels que physiques, mais il se trouve à être un véritable casse-tête. En apprentissage profond, la modélisation d’images statiques entre présentement dans une phase plus mature, mais qu’en est-il pour des séquences d’images et de leurs générations? De très récents modèles ont réussi d’impressionnantes générations image par image et exhibent de longues séquences sans dégradation rapide de la qualité visuelle. En analysant ceux-ci, ce mémoire propose le modèle feature flow comme un choix raisonnable à considérer pour cette tâche et espère convaincre pourquoi.
La génération comme sujet d’étude elle-même a fait également l’objet d’une attention particulière à travers ce mémoire. Il augmente le déjà populaire generative adversarial networks avec un mécanisme d’inférence, adversarially learned inference. Cette version améliorée excelle aux mêmes tâches que son prédécesseur tout en offrant une représentation abstraite des données grâce au mécanisme d’inférence. Il y a espoir lors de travaux futures d’exhiber tout son potentiel, l’élevant comme un choix de modèle important. This thesis presents an exploration of generative models in the context of video
generation. It focuses on an investigation of the problems faced by researchers
when working on this branch of computer vision. It is argued throughout this
thesis that video suffers from two main issues, namely on the data side and on the
model side.
Data-wise, current state-of-the-art models in this field are applied on datasets
that can potentially misrepresent the true challenges with real videos and pushes
model innovations in corners that could be dead ends on this task. A new dataset
is proposed in light of this situation that tries to fix these problems.
Model-wise, video generation is on the very frontier of generative applications.
It represents an area still very open for breakthrough since not only is it faced with
engineering, hardware and software obstacles, it also offers a real puzzle for models.
If deep learning modelling for static images is entering a more mature phase, how
does one transition to a sequence of images and moreover generate them? Very
recent models have yielded impressive next frame generations and are able to show
long sequences of frames that do not rapidly degrade. This thesis proposes the
feature flow model as a natural choice to consider when doing this task and hope
to reasonably argue as to why.
Generation as an object of study itself has also been given attention throughout
this thesis. It augments the already popular generative adversarial networks with an
inference mechanism, adversarially learned inference. This upgraded version excels
at the same tasks than its predecessor while offering an abstract representation
of its data through the inference procedure. There is hope for a display of its full
potential in future works setting it as a strong model choice.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.