Amélioration de l'exactitude de l'inférence phylogénomique

Roure, Béatrice

dc.contributor.advisor	Philippe, Hervé
dc.contributor.advisor	Lang, Franz Bernd
dc.contributor.author	Roure, Béatrice
dc.date.accessioned	2011-11-24T16:33:42Z
dc.date.available	NO_RESTRICTION	en
dc.date.available	2011-11-24T16:33:42Z
dc.date.issued	2011-10-06
dc.date.submitted	2011-04
dc.identifier.uri	http://hdl.handle.net/1866/5949
dc.subject	Phylogénomique	en
dc.subject	Exactitude de l’inférence	en
dc.subject	Hétéropécilie	en
dc.subject	Hétérogénéité du processus évolutif	en
dc.subject	Échantillonnage des espèces	en
dc.subject	Sélection des séquences	en
dc.subject	Données manquantes	en
dc.subject	Violation de modèle	en
dc.subject	Phylogenomics	en
dc.subject	Accuracy of the inference	en
dc.subject	Heteropecilly	en
dc.subject	Heterogeneity of the evolutionary process	en
dc.subject	Species sampling	en
dc.subject	Sequence sorting	en
dc.subject	Missing data	en
dc.subject	Model violation	en
dc.subject.other	Biology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)	en
dc.title	Amélioration de l'exactitude de l'inférence phylogénomique	en
dc.type	Thèse ou mémoire / Thesis or Dissertation
etd.degree.discipline	Bio-informatique	en
etd.degree.grantor	Université de Montréal	fr
etd.degree.level	Doctorat / Doctoral	en
etd.degree.name	Ph. D.	en
dcterms.abstract	L’explosion du nombre de séquences permet à la phylogénomique, c’est-à-dire l’étude des liens de parenté entre espèces à partir de grands alignements multi-gènes, de prendre son essor. C’est incontestablement un moyen de pallier aux erreurs stochastiques des phylogénies simple gène, mais de nombreux problèmes demeurent malgré les progrès réalisés dans la modélisation du processus évolutif. Dans cette thèse, nous nous attachons à caractériser certains aspects du mauvais ajustement du modèle aux données, et à étudier leur impact sur l’exactitude de l’inférence. Contrairement à l’hétérotachie, la variation au cours du temps du processus de substitution en acides aminés a reçu peu d’attention jusqu’alors. Non seulement nous montrons que cette hétérogénéité est largement répandue chez les animaux, mais aussi que son existence peut nuire à la qualité de l’inférence phylogénomique. Ainsi en l’absence d’un modèle adéquat, la suppression des colonnes hétérogènes, mal gérées par le modèle, peut faire disparaître un artéfact de reconstruction. Dans un cadre phylogénomique, les techniques de séquençage utilisées impliquent souvent que tous les gènes ne sont pas présents pour toutes les espèces. La controverse sur l’impact de la quantité de cellules vides a récemment été réactualisée, mais la majorité des études sur les données manquantes sont faites sur de petits jeux de séquences simulées. Nous nous sommes donc intéressés à quantifier cet impact dans le cas d’un large alignement de données réelles. Pour un taux raisonnable de données manquantes, il appert que l’incomplétude de l’alignement affecte moins l’exactitude de l’inférence que le choix du modèle. Au contraire, l’ajout d’une séquence incomplète mais qui casse une longue branche peut restaurer, au moins partiellement, une phylogénie erronée. Comme les violations de modèle constituent toujours la limitation majeure dans l’exactitude de l’inférence phylogénétique, l’amélioration de l’échantillonnage des espèces et des gènes reste une alternative utile en l’absence d’un modèle adéquat. Nous avons donc développé un logiciel de sélection de séquences qui construit des jeux de données reproductibles, en se basant sur la quantité de données présentes, la vitesse d’évolution et les biais de composition. Lors de cette étude nous avons montré que l’expertise humaine apporte pour l’instant encore un savoir incontournable. Les différentes analyses réalisées pour cette thèse concluent à l’importance primordiale du modèle évolutif.	en
dcterms.abstract	The explosion of sequence number allows for phylogenomics, the study of species relationships based on large multi-gene alignments, to flourish. Without any doubt, phylogenomics is essentially an efficient way to eliminate the problems of single gene phylogenies due to stochastic errors, but numerous problems remain despite obvious progress realized in modeling evolutionary process. In this PhD-thesis, we are trying to characterize some consequences of a poor model fit and to study their impact on the accuracy of the phylogenetic inference. In contrast to heterotachy, the variation in the amino acid substitution process over time did not attract so far a lot of attention. We demonstrate that this heterogeneity is frequently observed within animals, but also that its existence can interfere with the quality of phylogenomic inference. In absence of an adequate model, the elimination of heterogeneous columns, which are poorly handled by the model, can eliminate an artefactual reconstruction. In a phylogenomic framework, the sequencing strategies often result in a situation where some genes are absent for some species. The issue about the impact of the quantity of empty cells was recently relaunched, but the majority of studies on missing data is performed on small datasets of simulated sequences. Therefore, we were interested on measuring the impact in the case of a large alignment of real data. With a reasonable amount of missing data, it seems that the accuracy of the inference is influenced rather by the choice of the model than the incompleteness of the alignment. For example, the addition of an incomplete sequence that breaks a long branch can at least partially re-establish an artefactual phylogeny. Because, model violations are always representing the major limitation of the accuracy of the phylogenetic inference, the improvement of species and gene sampling remains a useful alternative in the absence of an adequate model. Therefore, we developed a sequence-selection software, which allows the reproducible construction of datasets, based on the quantity of data, their evolutionary speed and their compositional bias. During this study, we did realize that the human expertise still furnishes an indispensable knowledge. The various analyses performed in the course of this PhD thesis agree on the primordial importance of the model of sequence evolution.	en
dcterms.language	fra	en

Files in this item

Name:: Roure_Beatrice_2011_these.pdf
Size:: 25.45Mb
Format:: PDF
Description:: Thèse

This item appears in the following Collection(s)

Show item record

This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.