An approach to improved microbial eukaryotic genome annotation
Thèse ou mémoire
Résumé·s
Les nouvelles technologies de séquençage d’ADN ont accélérées la vitesse à laquelle les
données génomiques sont générées. Par contre, une fois séquencées et assemblées, un défi
continu est l'annotation structurelle précise de ces nouvelles séquences génomiques. Par le
séquençage et l'assemblage du transcriptome (RNA-Seq) du même organisme, la précision de
l'annotation génomique peut être améliorée, car les lectures de RNA-Seq et les transcrits
assemblés fournissent des informations précises sur la structure des gènes. Plusieurs pipelines
bio-informatiques actuelles incorporent des informations provenant du RNA-Seq ainsi que des
données de similarité des séquences protéiques, pour automatiser l'annotation structurelle d’un
génome de manière que la qualité se rapproche à celle de l'annotation par des experts. Les
pipelines suivent généralement un flux de travail similaire. D'abord, les régions répétitives sont
identifiées afin d'éviter de fausser les alignements de séquences et les prédictions de gènes.
Deuxièmement, une base de données est construite contenant les données expérimentales telles
que l’alignement des lectures de séquences, des transcrits et des protéines, ce qui informe les
prédictions de gènes basées sur les Modèles de Markov Cachés généralisés. La dernière étape
est de consolider les alignements de séquences et les prédictions de gènes dans un consensus de
haute qualité. Or, les pipelines existants sont complexes et donc susceptibles aux biais et aux
erreurs, ce qui peut empoisonner les prédictions de gènes et la construction de modèles
consensus. Nous avons développé une approche améliorée pour l'annotation des génomes
eucaryotes microbiens. Notre approche comprend deux aspects principaux. Le premier est axé
sur la création d'un ensemble d'évidences extrinsèques le plus complet et diversifié afin de mieux
informer les prédictions de gènes. Le deuxième porte sur la construction du consensus du modèle
de gènes en utilisant les évidences extrinsèques et les prédictions par MMC, tel que l'influence
de leurs biais potentiel soit réduite. La comparaison de notre nouvel outil avec trois pipelines
populaires démontre des gains significatifs de sensibilité et de spécificité des modèles de gènes,
de transcrits, d'exons et d'introns dans l’annotation structural de génomes d’eucaryotes
microbiens. New sequencing technologies have considerably accelerated the rate at which genomic data is
being generated. One ongoing challenge is the accurate structural annotation of those novel
genomes once sequenced and assembled, in particular if the organism does not have close
relatives with well-annotated genomes. Whole-transcriptome sequencing (RNA-Seq) and
assembly—both of which share similarities to whole-genome sequencing and assembly,
respectively—have been shown to dramatically increase the accuracy of gene annotation. Read
coverage, inferred splice junctions and assembled transcripts can provide valuable information
about gene structure. Several annotation pipelines have been developed to automate structural
annotation by incorporating information from RNA-Seq, as well as protein sequence similarity
data, with the goal of reaching the accuracy of an expert curator. Annotation pipelines follow a
similar workflow. The first step is to identify repetitive regions to prevent misinformed sequence
alignments and gene predictions. The next step is to construct a database of evidence from
experimental data such as RNA-Seq mapping and assembly, and protein sequence alignments,
which are used to inform the generalised Hidden Markov Models of gene prediction software.
The final step is to consolidate sequence alignments and gene predictions into a high-confidence
consensus set. Thus, automated pipelines are complex, and therefore susceptible to incomplete
and erroneous use of information, which can poison gene predictions and consensus model
building. Here, we present an improved approach to microbial eukaryotic genome annotation.
Its conception was based on identifying and mitigating potential sources of error and bias that
are present in available pipelines. Our approach has two main aspects. The first is to create a
more complete and diverse set of extrinsic evidence to better inform gene predictions. The
second is to use extrinsic evidence in tandem with predictions such that the influence of their
respective biases in the consensus gene models is reduced. We benchmarked our new tool
against three known pipelines, showing significant gains in gene, transcript, exon and intron
sensitivity and specificity in the genome annotation of microbial eukaryotes.
Collections
Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.