Deep Learning for Video Modelling

Mastropietro, Olivier

Show metadata

Permalink

https://hdl.handle.net/1866/20192

Thesis or Dissertation

Mastropietro_Olivier_2017_memoire.pdf (7.555Mb)

2017-12 (degree granted: 2018-03-21)

Author(s)

Mastropietro, Olivier

Advisor(s)

Courville, Aaron

Level

Master's

Discipline

Informatique

Keywords

Abstract(s)

Ce mémoire de maı̂trise présente une exploration des modèles génératifs dans le contexte de la vidéo. Ceci a demandé une étude approfondie des problèmes encourus par les chercheurs dans cette branche de la vision par ordinateur. Ce mémoire établi deux axes problématiques, celui venant des données et celui des modèles. Concernant les données, les méthodes accomplissant l’état-de-l’art dans ce domaine sont appliqués sur des bases de données qui potentiellement sous représentent les défis existant dans les vidéos de tous les jours. Ainsi, il est possible que l’innovation évolue ultimement vers des cul-de-sacs et une nouvelle bases de données est suggérées afin de résoudre ce problème. Quant aux modèles, la génération de vidéos est à la frontière des applications des procéssus génératifs. C’est un champs de recherche encore très ouvert aux découvertes de tailles car non seulement est-il devant des obstacles d’ingénieries, tant aux niveaux logiciels que physiques, mais il se trouve à être un véritable casse-tête. En apprentissage profond, la modélisation d’images statiques entre présentement dans une phase plus mature, mais qu’en est-il pour des séquences d’images et de leurs générations? De très récents modèles ont réussi d’impressionnantes générations image par image et exhibent de longues séquences sans dégradation rapide de la qualité visuelle. En analysant ceux-ci, ce mémoire propose le modèle feature flow comme un choix raisonnable à considérer pour cette tâche et espère convaincre pourquoi. La génération comme sujet d’étude elle-même a fait également l’objet d’une attention particulière à travers ce mémoire. Il augmente le déjà populaire generative adversarial networks avec un mécanisme d’inférence, adversarially learned inference. Cette version améliorée excelle aux mêmes tâches que son prédécesseur tout en offrant une représentation abstraite des données grâce au mécanisme d’inférence. Il y a espoir lors de travaux futures d’exhiber tout son potentiel, l’élevant comme un choix de modèle important.

This thesis presents an exploration of generative models in the context of video generation. It focuses on an investigation of the problems faced by researchers when working on this branch of computer vision. It is argued throughout this thesis that video suffers from two main issues, namely on the data side and on the model side. Data-wise, current state-of-the-art models in this field are applied on datasets that can potentially misrepresent the true challenges with real videos and pushes model innovations in corners that could be dead ends on this task. A new dataset is proposed in light of this situation that tries to fix these problems. Model-wise, video generation is on the very frontier of generative applications. It represents an area still very open for breakthrough since not only is it faced with engineering, hardware and software obstacles, it also offers a real puzzle for models. If deep learning modelling for static images is entering a more mature phase, how does one transition to a sequence of images and moreover generate them? Very recent models have yielded impressive next frame generations and are able to show long sequences of frames that do not rapidly degrade. This thesis proposes the feature flow model as a natural choice to consider when doing this task and hope to reasonably argue as to why. Generation as an object of study itself has also been given attention throughout this thesis. It augments the already popular generative adversarial networks with an inference mechanism, adversarially learned inference. This upgraded version excels at the same tasks than its predecessor while offering an abstract representation of its data through the inference procedure. There is hope for a display of its full potential in future works setting it as a strong model choice.

Collections

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.