Learning neural ordinary differential equations for optimal control
Thesis or Dissertation
2021-08 (degree granted: 2022-03-16)
Author(s)
Advisor(s)
Level
Master'sDiscipline
InformatiqueKeywords
- Apprentissage Profond
- Apprentissage Automatique
- Contrôle Prédictif par Modèle
- ODE Neuronale
- Optimisation Non Linéaire
- Contrôle Optimal
- Apprentissage par Renforcement
- Deep Learning
- Machine Learning
- Model Predictive Control
- Neural ODE
- Nonlinear Programming
- Optimal Control
- Reinforcement Learning
- Applied Sciences - Artificial Intelligence / Sciences appliqués et technologie - Intelligence artificielle (UMI : 0800)
Abstract(s)
Ce mémoire rassemble des éléments d'optimisation,
d'apprentissage profond et de contrôle optimal afin de répondre
aux problématiques
d'apprentissage et de planification
dans le contexte des systèmes dynamiques en temps continu.
Deux approches générales sont explorées.
D'abord, une approche basée sur la méthode du
maximum de vraisemblance
est présentée.
Ici, les trajectoires ``d'entrainement'' sont
échantillonnées depuis
la dynamique réelle, et à partir de celles-ci un modèle
de prédiction des états observés
est appris.
Une fois que l'apprentissage est terminé,
le modèle est utilisé pour la planification,
en utilisant la dynamique de l'environnement
et une fonction de coût pour construire un
programme non linéaire, qui est
par la suite résolu pour trouver une séquence
de contrôle optimal.
Ensuite, une approche de bout en bout
est proposée, dans laquelle la tâche d'apprentissage de modèle
dynamique et celle de planification se déroulent simultanément.
Ceci est illustré
dans le cadre d'un problème d'apprentissage par imitation,
où le modèle est mis à jour
en rétropropageant le signal de perte à travers
l'algorithme de planification. Grâce au fait que l'entrainement
est effectué de bout en bout, cette technique pourrait
constituer un sous-module de réseau de neurones
de plus grande taille, et pourrait être utilisée pour
fournir un biais inductif en faveur des comportements optimaux
dans le contexte de systèmes dynamiques en temps continu.
Ces méthodes sont toutes les deux conçues
pour fonctionner
avec des modèles d'équations différentielles ordinaires
paramétriques et neuronaux.
Également, inspiré par des applications réelles pertinentes,
un large recueil de systèmes dynamiques
et d'optimiseurs de trajectoire, nommé Myriad,
est implémenté; les algorithmes sont
testés et comparés sur une variété
de domaines de
la suite Myriad. This thesis brings together elements of optimization,
deep learning and optimal control to study the challenge of
learning and planning in continuous-time
dynamical systems. Two general
approaches are explored. First, a maximum likelihood
approach is
presented, in which training trajectories are sampled
from the true dynamics, and a model
is learned to accurately predict the state observations.
After training is completed, the learned model
is then used for planning,
by using the dynamics and cost function to construct a
nonlinear program, which can be solved to find a sequence
of optimal controls.
Second, a fully end-to-end approach
is proposed, in which the tasks of model learning and
planning are performed simultaneously. This is demonstrated
in an imitation learning setting, in which the model is updated
by backpropagating the loss signal through the planning
algorithm itself. Importantly, because it can be trained
in an end-to-end fashion, this technique can be included
as a sub-module of a larger neural network, and used to
provide an inductive bias towards behaving optimally
in a continuous-time dynamical system.
Both the maximum likelihood and end-to-end methods
are designed to work
with parametric and neural ordinary
differential equation models.
Inspired by relevant real-world applications,
a large repository of dynamical systems
and trajectory optimizers, named Myriad,
is also implemented.
The algorithms are
tested and compared on a variety
of domains within
the Myriad suite.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.