Show item record

dc.contributor.advisorHussin, Julie
dc.contributor.authorPelletier, Justin
dc.date.accessioned2023-02-17T18:51:46Z
dc.date.availableNO_RESTRICTIONfr
dc.date.available2023-02-17T18:51:46Z
dc.date.issued2022-11-24
dc.date.submitted2022-04
dc.identifier.urihttp://hdl.handle.net/1866/27582
dc.subjectImputationfr
dc.subjectGénomiquefr
dc.subjectBio-informatiquefr
dc.subjectGénétique des populationsfr
dc.subjectPanels de référencefr
dc.subjectGénotypagefr
dc.subjectPopulation fondatricefr
dc.subjectCanadien françaisfr
dc.subjectQuébecfr
dc.subjectFrench-Canadianfr
dc.subjectFounder populationfr
dc.subjectGenotypingfr
dc.subjectReference panelsfr
dc.subjectPopulation geneticfr
dc.subjectBioinformaticsfr
dc.subjectGenomicfr
dc.subject.otherBioinformatics / Bioinformatique (UMI : 0715)fr
dc.titleÉvaluation de l’imputation des données génétiques Canadiennes-Françaisesfr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineBio-informatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelMaîtrise / Master'sfr
etd.degree.nameM. Sc.fr
dcterms.abstractL'imputation est désormais un outil essentiel dans l'analyse des études d'association à l'échelle du génome, permettant l'estimation de génotypes à des positions variables du génome non génotypées, via des inférences statistiques à partir d'haplotypes contenus dans un panel de référence utilisé pour l'imputation, soit une bibliothèque d’haplotype séquencés phasés en haplotypes. Les données génétiques imputés servent aux études d’associations sur les traits et maladies complexes. La population fondatrice canadienne-française est une population très utile dans les études d'association génétique en raison de sa diversité unique d'haplotypes et de l'excès de variantes rares. Ici, nous décrivons les défis qui accompagnent l'imputation de cette population fondatrice, qui n'est pas représentée dans les panels de référence disponibles, ainsi que la stratégie optimale pour imputer des ensembles de données génotypés hétérogènes, provenant de plusieurs plateformes de génotypage. Nous avons caractérisé l'imputation de 29,356 individus génotypés sur plusieurs puces de génotypage de la province du Québec constituant la cohorte CARTaGENE (CaG). Nous avons établi que le panel de référence le plus récent et le plus diversifié Trans-Omics for Precision Medecine (TOPMed) a surpassé le panel de référence Haplotype Reference Consortium (HRC) dans l'ensemble de données canadienne-française de CaG. Nous avons évalué la précision de l'imputation avec le un score de qualité (R2) fréquemment utilisé, ainsi que l’exactitude calculée en fonction des génotypes aux variants observés par séquençage, disponibles dans CARTaGENE pour un sous-groupe d’individus. Nous avons déterminé que la stratégie optimale pour augmenter la qualité d'imputation sur des ensembles de données hétérogènes a été atteinte en fusionnant chaque sous-ensemble de données après les avoir imputés individuellement. Ce résultat ouvre la voie à l’intégration de cohortes génotypées hétérogènes dans les études d’associations. Nos résultats soulignent également les défis que représente une population fondatrice pour l'imputation, en comparant la qualité de l'imputation de CaG avec d'autres sous-cohortes canadiennes du projet CanPath, soit l’Ontario, l’Alberta, la Colombie-Britannique et les provinces atlantiques. Ces résultats mettent en évidence l'impact de l’absence de diversité haplotypique spécifique dans les panels de référence sur l'imputation d'une population européenne fondatrice récente, démontrant l'importance de la représentativité de la population étudiée dans ces panels.fr
dcterms.abstractImputation is now an essential tool in the analysis of genome-wide association studies, allowing the estimation of genotypes at variable positions of the ungenotyped genome, via statistical inferences from haplotypes contained in a reference panel used for imputation, (a library of sequenced genotypes phased into haplotype). Imputed genetic data is used for association studies of complex traits and diseases. The French-Canadian founder population is a very useful population in genetic association studies due to its unique haplotype’s diversity and excess of rare variants. Here, we describe the challenges that come with imputing this founder population, which is not represented in available reference panels, as well as the optimal strategy for imputing heterogeneous genotyped datasets, from multiple genotyping platforms. We characterized the imputation of 29,356 individuals genotyped on multiple genotyping arrays from the province of Quebec constituting the CARTaGENE (CaG) cohort. We established that the newer and more diverse Trans-Omics for Precision Medicine (TOPMed) reference panel outperformed the Haplotype Reference Consortium (HRC) reference panel in the CaG French-Canadian dataset. We evaluated the precision of the imputation with the frequently used quality score (R2), as well as the accuracy calculated according to the genotypes observed by sequencing, available in CARTaGENE for a subgroup of individuals. We determined that the optimal strategy for increasing imputation quality on heterogeneous datasets was achieved by merging each subset of data after imputing them individually. This result opens the way to the integration of heterogeneous genotyped cohorts in association studies. Our results also highlight the challenges of a founder population for imputation, comparing the quality of CaG imputation with other Canadian sub-cohorts of the CanPath project, namely Ontario, Alberta, British-Columbia, and the Atlantic provinces. These results highlight the impact of the absence of specific haplotypic diversity in the reference panels on the imputation of a recent European founder population, demonstrating the importance of the representativeness of the population studied in these panels.fr
dcterms.languagefrafr
UdeM.ORCIDAuteurThese0000-0001-7324-5226fr


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.