AI for molecule discovery with multi-modal knowledge
Thesis or Dissertation
2023-07 (degree granted: 2023-09-13)
Advisor(s)
Level
DoctoralDiscipline
InformatiqueKeywords
- Découverte de molécules
- Topologie en 2D
- Géométrie en 3D
- Annotation textuelle
- Graphe de connaissances biologiques
- Multimodal
- Pré-entraînement
- Pretraining
- Multi-modal
- Molecule discovery
- 2D topology
- 3D geometry
- Textual annotation
- Biological knowledge graph
- Artificial intelligence / Intelligence artificielle (UMI : 0800)
Abstract(s)
Artificial intelligence for drug discovery has been revoking an increasing interest in the machine learning and chemistry \& biology communities. During my 3-year Ph.D. research, I have devoted myself to studying the multi-modal modeling of molecules, including but not limited to molecule 2D topological representation, 3D geometric representation, self-supervised learning, multi-task learning, (controllable) structured generation, and physics-informed dynamic system.
Additionally, in the past six months, with the success of ChatGPT and GPT-4, more efforts have been put into the large language model (AKA foundation model). This aligns well with my research direction, which aims to combine multiple modalities to enable quick adaptation to various task-specific molecule tasks, such as zero-shot molecule optimization and zero-shot property prediction.
In this thesis, I would like to provide a new perspective on molecule discovery. Specifically, I will showcase how the integration of multiple modalities and advanced representation learning techniques can improve the performance and capability of AI systems in molecule discovery, targeting more realistic and challenging problems. My research seeks to contribute to the development of a novel foundation model for effective and efficient drug discovery. L’intelligence artificielle pour la découverte de médicaments a suscité un intérêt croissant
pour les communautés de l’apprentissage automatique et de la chimie et de la biologie. Au
cours de mes 3 ans de doctorat. recherche, je me suis consacré à l’étude de la modélisation
multimodale des molécules, y compris, mais sans s’y limiter, la représentation topologique 2D
des molécules, la représentation géométrique 3D, l’apprentissage auto-supervisé, l’apprentissage
multi-tâches, la génération structurée (contrôlable) et la dynamique d’apprentissage.
Au cours des six derniers mois (de novembre 2022 à avril 2023), avec le succès de
ChatGPT et GPT-4, davantage d’efforts ont été déployés dans le grand modèle de langue
(modèle de base AKA). Cela correspond parfaitement à ma direction de recherche, qui vise à
combiner plusieurs modalités de molécules pour permettre une adaptation rapide à diverses
tâches en aval spécifiques à une tâche.
Dans cette thèse, je voudrais fournir une telle perspective pour la découverte de molécules.
Plus précisément, je montrerai comment l’intégration de plusieurs modalités peut améliorer
les performances des systèmes d’IA dans la découverte de molécules. Ma recherche vise à
contribuer au développement d’un nouveau modèle de base pour la découverte efficace et
efficiente de médicaments.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.