Show item record

dc.contributor.advisorSchnitzer, Mireille
dc.contributor.advisorBlais, Lucie
dc.contributor.authorFerreira Guerra, Steve
dc.date.accessioned2018-06-11T18:50:08Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2018-06-11T18:50:08Z
dc.date.issued2018-03-23
dc.date.submitted2017-07
dc.identifier.urihttp://hdl.handle.net/1866/20549
dc.subjectBases de données administrativesfr
dc.subjectTMLEfr
dc.subjectEstimation semi-paramétriquefr
dc.subjectApprentissage machinefr
dc.subjectAdministrative databasesfr
dc.subjectCoarseningfr
dc.subjectSemi-parametric estimationfr
dc.subjectMachine learningfr
dc.subject.otherHealth Sciences - Epidemiology / Sciences de la santé - Épidémiologie (UMI : 0766)fr
dc.titleUne procédure de sélection automatique de la discrétisation optimale de la ligne du temps pour des méthodes longitudinales d’inférence causalefr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineSciences pharmaceutiquesfr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractLors d’études observationnelles longitudinales, les caractéristiques des sujets sont mesurées et suivies dans le temps. Bien que la distribution sous-jacente de ces variables puisse être continue dans le temps, en pratique, les mesures sont observées à des temps discrets. De fait, dans les bases de données réelles, telles les bases de données administratives, il est raisonnable de supposer que les processus d’exposition sous-jacents se produisent en temps réel continu. Cependant, les méthodes d’inférence causale standard pour les données longitudinales supposent généralement que les expositions sous-jacentes sont des processus discrets et que les temps où les expositions sont observées en pratique sont les seuls moments où celles-ci peuvent changer de valeur. Une problématique de cette approche traditionnelle réside dans la manière de discrétiser cette ligne du temps continue sous-jacente. L’approche traditionnelle consiste à discrétiser arbitrairement la ligne du temps en plusieurs points temporels qui séparent les données en intervalles. Ainsi, d’une part, la difficulté réside dans la sélection d’une discrétisation appropriée qui permet de suffisamment saisir toutes les relations entre les variables dans l’optique de contrôler de manière appropriée pour le biais de confusion dépendant du temps. D’autre part, une autre difficulté intrinsèque à ce problème est que, à mesure que le nombre de points temporels augmente, la dimensionnalité augmente et le volume de l’espace longitudinal augmente si rapidement que les données peuvent devenir rares. En particulier, les méthodes d’inférence causale standard nécessitent un support raisonnable pour l’exposition d’intérêt. Sans un tel support, les estimateurs seront mal définis ou extrêmement variables. Bien que l’on puisse répondre à ce défi en créant une discrétisation plus grossière, une telle approche introduit un biais en ne contrôlant pas pour tous les facteurs de confusion variant dans le temps. Ceci ouvre le débat du choix d’un degré optimal de discrétisation. Par conséquent, un nombre arbitraire de points temporels peut entraîner un biais non catégorisable ou augmenter la variance. Nous proposons une méthode novatrice qui sélectionne de manière adaptative une discrétisation optimale. Cela se fera par la validation croisée d’une fonction de perte basée sur l’estimation par maximum vraisemblance ciblée longitudinale groupée. Nous effectuons une étude de simulation dans laquelle nous générons des données avec confusion dépendant du temps afin d’évaluer le compromis biais-variance et la performance de la procédure de sélection. Nous appliquons également notre procédure de sélection à une application de données réelles portant sur l’effet de médicaments antiasthmatiques pendant la grossesse sur la durée de gestation.fr
dcterms.abstractIn longitudinal observational studies, subject characteristics are measured and followed over time. Although the underlying evolution of such response variables may be continuous in time, in practice the measurements are observed at discrete time points. In real world data sets such as administrative databases, it is reasonable to assume that the underlying observed exposure processes happen in real time. However, standard causal inference methods for longitudinal data usually assume that the underlying exposures are discrete time processes, and that the observational time points are the only time points when the exposures may change values. A crucial pitfall of this traditional approach lies in the manner to discretize this underlying continuous timeline. The common approach is to arbitrarily discretize the timeline into several time-points that separate the data into intervals. The problem at hand is then selecting the appropriate discretization that sufficiently captures all of the intricate relationships between the variables in the optic of appropriately controlling the time-dependent confounding bias. On the other hand, the common theme of this problem is that as the number of time-points increases, the dimensionality increases, and the volume of the space increases so rapidly that the available data may become sparse. In particular, standard causal inference methods rely on reasonable data support for the exposure of interest. Without such support, estimators will be ill-defined or extremely variable. Although one might respond to this challenge by creating a coarser discretization, such an approach introduces bias by failing to capture all the time-dependent confounding and leaves open the question of how to choose an optimal degree of coarsening. Hence, an arbitrary number of time-points may result in unpredictable bias or inflated variance. We propose a novel method that data-adaptively selects an optimal discretization. This will be done through the cross-validation of a loss function based on pooled Longitudinal Targeted Maximum Likelihood Estimation. We conduct a simulation study in which we generate time-dependent confounded data to evaluate the bias-variance trade-off and the performance of the selection procedure. We also apply our selection procedure to a real-world data application of the effect of asthma medication during pregnancy on pregnancy duration.fr
dcterms.languagefrafr
UdeM.ORCIDAuteurThese0000-0001-8049-4319fr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.