Développement d’un processus d’analyse d’expériences dose-réponse par inférence Bayésienne et application à de larges jeux de données
Thesis or Dissertation
Abstract(s)
Dans le contexte du processus de découverte de médicaments, divers composés chimiques sont développés, testés et optimisés dans l’optique d’identifier de nouvelles thérapies efficaces pour un contexte médical précis. L’efficience de ces composés se caractérise, entre autres, via des expériences de type dose-réponse. Les expérimentateurs filtrent et sélectionnent les meilleurs composés sur la base des métriques d’efficience obtenues, telles que l’IC50/EC50 et la réponse à haute concentration (HDR).
Traditionnellement, les valeurs des métriques d’efficience sont estimées en ajustant les paramètres du modèle log-logistique à des données expérimentales. Je désigne cette approche par Levenberg-Marquardt, soit l’algorithme le plus couramment implémenté pour une régression non-linéaire par descente de gradient. Bien que Levenberg-Marquardt soit le standard dans l’analyse des expériences dose-réponse, il présente la principale limitation de ne pouvoir évaluer ou quantifier adéquatement l’incertitude des estimations des valeurs des métriques d’efficience. Cela a un impact particulièrement néfaste lorsque des réponses incomplètes ou plates sont analysées: les métriques estimées sont incorrectes et les expérimentateurs ne sont pas outillés pour en faire l’identification rapide. Ceux-ci doivent souvent se rabattre sur des évaluations visuelles des réponses, une approche peu efficace lorsque plusieurs expériences sont considérées et difficile à reproduire d’un expérimentateur à l’autre. Il existe donc un important besoin pour une méthodologie robuste et accessible qui tienne compte de l’incertitude découlant des données expérimentales et qui soit apte à quantifier l’incertitude sous-jacente des mesures d’efficacité.
La présente thèse vise à mieux outiller les expérimentateurs dans leurs processus d’analyse d’expériences dose-réponse et de prise de décisions. Pour ce faire, je propose un processus d’analyse par inférence bayésienne: les métriques d’efficience sont dès lors représentées par des distributions des valeurs les plus probables, soit des posteriors. Les posteriors représentent explicitement l’incertitude découlant des variabilités biologique, expérimentale et analytique. L’intégration de priors rend le processus d’inférence robuste aux expériences incomplètes ou plates, contrairement à Levenberg-Marquardt. Je démontre cette robustesse qualitativement et quantitativement via une comparaison des représentations (c.-à-d. posterior et estimation) pour des paires de réplicats biologiques provenant de trois larges jeux de données publics. Parallèlement à la nouvelle méthodologie proposée, je démontre pour une première fois quantitativement les lacunes de Levenberg-Marquardt. Je propose aussi diverses analyses post-inférence tirant tout le potentiel informatif des posteriors. Celles-ci sont plus flexibles, informatives et statistiquement valables que les analyses faites sur les estimations de Levenberg-Marquardt. Finalement, j’ai intégré le processus d’inférence et d’analyses post-inférence dans deux versions d’une interface web (BiDRA: Bayesian inference for the Analysis of Dose-Response) outillant ainsi de façon conviviale les expérimentateurs.
Mes travaux de thèse proposent une alternative robuste et accessible aux lacunes de Levenberg-Marquardt dans le contexte de la caractérisation de l’efficience de composés chimiques. De plus, les différentes démonstrations ouvrent la voie à l’intégration de l’inférence Bayésienne pour divers types d’expériences dans le contexte du processus de découverte de médicaments. In the context of drug discovery, various chemical compounds are developed, tested and optimized with the aim of identifying new effective therapies for a specific medical context. The efficiency of these compounds is characterized by efficiency metrics, such as potency and efficacy (HDR), that are derived from the analysis of dose-response experiments. Experimenters filter and select compounds based on these efficiency metrics.
Traditionally, the values of efficiency metrics are estimated by adjusting the parameters of the log-logistic model to experimental data. I refer to this approach as Levenberg-Marquardt, the most commonly implemented algorithm for non-linear regression by gradient descent. Although Levenberg-Marquardt is the standard in the analysis of dose-response experiments, it presents the main limitation of not being able to adequately evaluate or quantify the uncertainty of efficiency metrics. This has a particularly harmful impact when incomplete or flat responses are analyzed: the estimated metrics are incorrect and experimenters are not equipped to quickly identify them. They often have to fall back on visual evaluations of responses, an approach that is not very effective when several experiments are considered and difficult to reproduce from one experimenter to another. There is thus a dire need for a robust and accessible methodology that account for uncertainty arising from the experimental data and is able to quantify the underlying uncertainty of efficiency metrics.
This thesis aims to provide experimenters with better tools for analyzing dose-response experiments and making decisions. To do this, I propose a Bayesian inference analysis process: the efficiency metrics are now represented by distributions of the most probable values, i.e. posteriors. The posteriors explicitly represent the uncertainty arising from biological, experimental and analytical variabilities. The integration of priors makes the inference process robust to incomplete or flat experiments, unlike Levenberg-Marquardt. I demonstrate this robustness qualitatively and quantitatively via a comparison of representations (i.e., posterior and estimation) for pairs of biological replicates from three large public datasets. Alongside the new proposed methodology, I demonstrate for the first time quantitatively the shortcomings of Levenberg-Marquardt. I also propose various post-inference analyzes drawing all the informative potential of the posteriors. Such analyzes are more flexible, informative and statistically valid than analyzes done on Levenberg-Marquardt estimates.
Finally, I integrated the process of inference and post-inference analyzes into two versions of a web interface (BiDRA: Bayesian inference for the Analysis of Dose-Response) thus providing tools in a user-friendly manner for experimenters.
My thesis work proposes a robust and accessible alternative to the shortcomings of Levenberg-Marquardt in the context of characterizing the efficiency of chemical compounds. Additionally, the various demonstrations pave the way for the integration of Bayesian inference to the analysis of various types of experiments in the context of the drug discovery process.
Collections
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.