Show item record

dc.contributor.advisorMurua, Alejandro
dc.contributor.authorAdjogou, Adjobo Folly Dzigbodi
dc.date.accessioned2018-06-13T13:30:08Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2018-06-13T13:30:08Z
dc.date.issued2018-03-21
dc.date.submitted2017-05
dc.identifier.urihttp://hdl.handle.net/1866/20581
dc.subjectDonnées longitudinalesfr
dc.subjectPartitionnement fonctionnelfr
dc.subjectClassification non superviséefr
dc.subjectModèles de mélange pour classificationfr
dc.subjectAnalyse des données fonctionnellesfr
dc.subjectAlgorithme EMfr
dc.subjectStatistique bayésiennefr
dc.subjectLongitudinal datafr
dc.subjectFunctional clusteringfr
dc.subjectModel-based clusteringfr
dc.subjectFunctional data analysisfr
dc.subjectEM algorithmfr
dc.subjectBayesian frameworkfr
dc.subjectSparse longitudinal datafr
dc.subjectGene expressionfr
dc.subjectMixture studentfr
dc.subjectPRRSVfr
dc.subjectLasso penalizationfr
dc.subject.otherMathematics / Mathématiques (UMI : 0405)fr
dc.titleAnalyse statistique de données fonctionnelles à structures complexesfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineStatistiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelDoctorat / Doctoralfr
etd.degree.namePh. D.fr
dcterms.abstractLes études longitudinales jouent un rôle prépondérant dans des domaines de recherche variés et leur importance ne cesse de prendre de l’ampleur. Les méthodes d’analyse qui leur sont associées sont devenues des outils privilégiés pour l’analyse de l’étude temporelle d’un phénomène donné. On parle de données longitudinales lorsqu’une ou plusieurs variables sont mesurées de manière répétée à plusieurs moments dans le temps sur un ensemble d’individus. Un élément central de ce type de données est que les observations prises sur un même individu ont tendance à être corrélées. Cette caractéristique fondamentale distingue les données longitudinales d’autres types de données en statistique et suscite des méthodologies d’analyse spécifiques. Ce domaine d’analyse a connu une expansion considérable dans les quarante dernières années. L’analyse classique des données longitudinales est basée sur les modèles paramétriques, non-paramétriques et semi-paramétriques. Mais une importante question abondamment traitée dans l’étude des données longitudinales est associée à l’analyse typologique (regroupement en classes) et concerne la détection de groupes (ou classes ou encore trajectoires) homogènes, suggérés par les données, non définis a priori de sorte que les individus dans une même classe tendent à être similaires les uns aux autres dans un certain sens et, ceux dans différentes classes tendent à être non similaires (dissemblables). Dans cette thèse, nous élaborons des modèles de clustering de données longitudinales et contribuons à la littérature de ce domaine statistique en plein essor. En effet, une méthodologie émergente non-paramétrique de traitement des données longitudinales est basée sur l’approche de l’analyse des données fonctionnelles selon laquelle les trajectoires longitudinales sont perçues comme étant un échantillon de fonctions (ou courbes) partiellement observées sur un intervalle de temps sur lequel elles sont souvent supposées lisses. Ainsi, nous proposons dans cette thèse, une revue de la littérature statistique sur l’analyse des données longitudinales et développons deux nouvelles méthodes de partitionnement fonctionnel basées sur des modèles spécifiques. En effet, nous exposons dans le premier volet de la présente thèse une revue succinte de la plupart des modèles typiques d’analyse des données longitudinales, des modèles paramétriques aux modèles non-paramétriques et semi-paramétriques. Nous présentons également les développements récents dans le domaine de l’analyse typologique de ces données selon les deux plus importantes approches : l’approche non paramétrique et l’approche fondée sur un modèle. Le but ultime de cette revue est de fournir un aperçu concis, varié et très accessible de toutes les méthodes d’analyse des données longitudinales. Dans la première méthodologie proposée dans le cadre de cette thèse, nous utilisons l’approche de l’analyse des données fonctionnelles (ADF) pour développer un modèle très flexible pour l’analyse et le regroupement de tout type de données longitudinales (balancées ou non) qui combine adéquatement et simultanément l’analyse fonctionnelle en composantes principales et le regroupement en classes. La modélisation fonctionnelle repose sur l’espace des coefficients dans la base des splines et le modèle, conçu dans un cadre bayésien, est basé sur un mélange de distributions de Student. Nous proposons également un nouveau critère pour la sélection de modèle en développant une approximation de la log-vraisemblance marginale (MLL). Ce critère se compare favorablement aux critères usuels tels que AIC et BIC. La seconde méthode de regroupement développée dans la présente thèse est une nouvelle procédure d’analyse de données longitudinales qui combine l’approche du partitionnement fonctionnel basé sur un modèle et une double pénalisation de type Lasso pour identifier les classes homogènes ou les individus avec des tendances semblables. Les courbes individuelles sont approximées dans un espace dérivé par une base finie de splines et le nombre optimal de classes est déterminé en pénalisant un mélange de distributions de Student. Les paramètres de contrôle de la pénalité sont définis par la méthode d’échantillonnage par hypercube latin qui assure une exploration plus efficace de l’espace de ces paramètres. Pour l’estimation des paramètres dans les deux méthodes proposées, nous utilisons l’algorithme itératif espérancemaximisation.fr
dcterms.abstractLongitudinal studies play a salient role in many and various research areas and their relevance is still increasing. The related methods have become a privileged tool for analyzing the evolution of a given phenomenon across time. Longitudinal data arise when measurements for one or more variables are taken at different points of a temporal axis on individuals involved in the study. A key feature of such type of data is that observations within the same subject may be correlated. That fundamental characteristic makes longitudinal data different from other types of data in statistics and motivates specific methodologies. There has been remarkable developments in that field in the past forty years. Typical analysis of longitudinal data relies on parametric, non-parametric or semi-parametric models. However, an important question widely addressed in the analysis of longitudinal data is related to cluster analysis and concerns the existence of groups or clusters (or homogeneous trajectories), suggested by the data, not defined a priori, such that individuals in a given cluster tend to be similar to each other in some sense, and individuals in different clusters tend to be dissimilar. This thesis aims at contributing to that rapidly expanding field of clustering longitudinal data. Indeed, an emerging non-parametric methodology for modeling longitudinal data is based on the functional data analysis approach in which longitudinal trajectories are viewed as a sample of partially observed functions or curves on some interval where these functions are often assumed to be smooth. We then propose in the present thesis, a succinct review of the most commonly used methods to analyze and cluster longitudinal data and two new model-based functional clustering methods. Indeed, we review most of the typical longitudinal data analysis models ranging from the parametric models to the semi and non parametric ones, as well as the recent developments in longitudinal cluster analysis according to the two main approaches : non-parametric and model-based. The purpose of that review is to provide a concise, broad and readily accessible overview of longitudinal data analysis and clustering methods. In the first method developed in this thesis, we use the functional data analysis approach to propose a very flexible model which combines functional principal components analysis and clustering to deal with any type of longitudinal data, even if the observations are sparse, irregularly spaced or occur at different time points for each individual. The functional modeling is based on splines and the main data groups are modeled as arising from clusters in the space of spline coefficients. The model, based on a mixture of Student’s t-distributions, is embedded into a Bayesian framework in which maximum a posteriori estimators are found with the EM algorithm. We develop an approximation of the marginal log-likelihood (MLL) that allows us to perform an MLL based model selection and that compares favourably with other popular criteria such as AIC and BIC. In the second method, we propose a new time-course or longitudinal data analysis framework that aims at combining functional model-based clustering and the Lasso penalization to identify groups of individuals with similar patterns. An EM algorithm-based approach is used on a functional modeling where the individual curves are approximated into a space spanned by a finite basis of B-splines and the number of clusters is determined by penalizing a mixture of Student’s t-distributions with unknown degrees of freedom. The Latin Hypercube Sampling is used to efficiently explore the space of penalization parameters. For both methodologies, the estimation of the parameters is based on the iterative expectation-maximization (EM) algorithm.fr
dcterms.languagefrafr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record