Afficher la notice

dc.contributor.advisorHijri, Mohamed
dc.contributor.advisorCiampi, Antonio
dc.contributor.authorKang, Jee Eun
dc.date.accessioned2019-05-14T19:55:15Z
dc.date.availableMONTHS_WITHHELD:6fr
dc.date.available2019-05-14T19:55:15Z
dc.date.issued2019-03-07
dc.date.submitted2018-10
dc.identifier.urihttp://hdl.handle.net/1866/21799
dc.subjectSesamefr
dc.subjectSpore associated Symbiotic Microbesfr
dc.subjectSymbiosisfr
dc.subjectSesame PS functionfr
dc.subjectArbuscular mycorrhizal fungifr
dc.subjectThree codon DNA 9-merfr
dc.subjectAmino acid characteristicsfr
dc.subjectSecondary structurefr
dc.subjectTaxonomical classificationfr
dc.subjectPosition specific functional analysisfr
dc.subjectPosition specific genetic code tablesfr
dc.subjectPostfr
dc.subjectComparative studyfr
dc.subjectMitochondrial genomefr
dc.subjectCaractéristiques d'acides aminésfr
dc.subjectTrois codons ADN 9-mèresfr
dc.subjectStructure secondairefr
dc.subjectClassification taxonomiquefr
dc.subjectAnalyse fonctionnelle spécifique à la positionfr
dc.subjectCode génétiquefr
dc.subjectÉtude comparativefr
dc.subjectGénome mitochondrialfr
dc.subject.otherBiology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)fr
dc.titleNovel bioinformatics programs for taxonomical classification and functional analysis of the whole genome sequencing data of arbuscular mycorrhizal fungifr
dc.typeThèse ou mémoire / Thesis or Dissertation
etd.degree.disciplineBio-informatiquefr
etd.degree.grantorUniversité de Montréalfr
etd.degree.levelDoctorat / Doctoralfr
etd.degree.namePh. D.fr
dcterms.abstractRésumé [TITRE] Classification taxonomique et analyse fonctionnelle spécifique àla position des séquences génomique des champignons mycorhiziens arbusculaires et les microorganismes qui leurs sont associés [PROBLÉMATIQUE ET CADRE CONCEPTUEL] Les champignons mycorhiziens arbusculaires (CMA) sont des symbiotes obligatoires des racines de la majoritédes plantes vasculaires. Les CMA appartiennent au phylum Glomeromycota et ils sont considérés comme une lignée fongique primitive qui a conservé la structure coenocytique des hyphes et la production des spores asexuées multinucléées. De nombeuses études ont démontréque plusieurs microorganismes sont associés avec les mycélia des CMA soit àla surface des hyphes et des spores mais aussi àl'intérieurs de celles-ci. Le séquençage des génomes des CMA cultivés in-vivo représente un défi considérable car il s’agit d’un métagénome constituédu génome du CMA lui-même et les génomes des microbes qui lui sont associés. Par conséquence, l’identification de l'origine taxonomique de chaque séquence représente une tâche extrêmement ardue. Dans mon projet, j’ai développédeux nouveaux programmes bioinformatiques qui permettent de classer les séquences selon groupe taxonomique et d’identifier les fonctions de celles-ci. J’ai crééune base de données avec 444 génomes d'espèces appartenant à54 genres. Le choix de ces espèces des bactéries et des champignons a étébasésur leur abondance dans les sols). [MÉTHODOLOGIE] Le programme bioinformatique utilise le tableau des références des microorganismes et des méthodes statistiques pour la classification taxonomique des séquences. Par la suite, des tableaux des codons synonymes étaient créés àpartir des structures secondaires (SS) des bases de données de protéines (PDB) pour les séquences codantes (SC) et des motifs de composition pour les séquences non-codantes (SNC). Chaque tableau est composéde 3 niveaux - les caractéristiques d'acides aminés; l'utilisation des acides aminés synonymes correspondants, et l'utilisation des codons synonymes correspondants. En comparant les méthodes existantes qui utilisent les taux de substitution moyenne globale quelle que soit les spécificités des acides aminés dans diverses structures, mon programme fournit une classification àhaute résolution pour des séquences courtes (150-300 pb) parce que les biais dans l'utilisation des codons synonymes àpartir d'environ 8000 trimères d'acides aminés spécifiques des sous-unités de structure secondaire, ont étéextraits avec des substitutions d'acides aminés pris en considération dans chaque trimère spécifique. Pour l'analyse fonctionnelle, le programme crée dynamiquement des données comparatives de 54 genres microbiens basés sur leurs biais dans l'utilisation des codons synonymes d'appariement de trois codons d’ADN (9-mères) identifiés dans une séquence de requête. Le programme applique une analyse en composantes principales basée sur la matrice de corrélation en association avec le partitionnement en k-moyennes aux données comparatives. [RETOMBÉES] Les taux de prédiction correcte de la CDS et les non-CDS étaient de 50 à71% pour les bactéries, et 65 à73% pour les champignons, respectivement. Pour les CMA, 49% des CDS et 72% des non-CDS ont étécorrectement classés. Ce programme nous permet d'estimer les abondances approximatives des communautés microbiennes associées au CMA. Les résultats de l'analyse fonctionnelle peuvent fournir des informations sur des sites d'interaction moléculaire importants impliqués dans la diversification des séquences et l’évolution des gènes. Les programmes sont disponibles gratuitement sur www.fungalsesame.org. Mots-clés: sesame, sesame PS function, les caractéristiques d'acides aminés, trois codons ADN 9-mères, structure secondaire, classification taxonomique, analyse fonctionnelle spécifique àla position; Code génétique; Étude Comparative; Génome Mitochondrialfr
dcterms.abstractAbstract Arbuscular Mycorrhizal Fungi (AMF) are obligate plant-root symbionts belonging to the phylum Glomeromycota. They form coenocytic hyphae and reproduce through large multinucleated asexual spores. Numerous studies have shown that AMF interact closely or loosely with a myriad of microorganisms, particularly bacteria and fungi that live on the surface of or inside of their mycelia and spores. Whole genome sequencing (WGS) data of the AMF grown in-vivo (typically grown in root of a host plant in pot filled with soil) contain a large amount of sequences from microorganisms inhabiting in their spore along with their own genome sequences, resulting in a metagenome. The goal of my study was to develop bioinformatics programs for taxonomical classification and for functional analysis of the WGS data of the AMF. In the area of metagenomics, there are mainly two approaches for taxonomical classification: similarity-based (i.e., homology search) and composition-based (i.e., k-mers) methods. Similarity-based method solely depends on bioinformatics sequence databases and homology search programs such as BLAST program. The similarity-based method may not be suitable for ancient fungi AMF, because bioinformatics databases represent only a small fraction of the diversity of existing microorganisms, and gene prediction programs are highly biased towards intensively studied microorganisms. Considering that AMF have high inter/ intra genome variations, in addition to coenocytic and multi-genomic characteristics, probably due to their adaptation via various kinds of symbioses, composition-based method alone is not an effective solution for AMF, because it relies on base composition biases and focuses on taxonomical classification for prokaryotic organisms. In the first project, I a developed novel bioinformatics program, called SeSaMe (Spore associated Symbiotic Microbes), for taxonomical classification of the WGS data of the AMF. I selected microorganisms that were dominant in soil environment and grouped them into 54 genera which were used as references. I created a reference sequence database with a variable called Three codon DNA 9-mer. They were created based on a large number of structure files from Protein Data Bank (PDB): approx. 224,000 Three codon DNA 9-mers encoding for subunits of protein secondary structures. Based on the reference sequence database, I created genus specific usage databases containing codon usage and amino acid usage per taxonomic rank- genus. The program distinguishes between coding sequence (CDS) and non-CDS, detects an open reading frame, and classifies a query sequence into a genus group out of 54 genera used as reference. The developed program enables us to estimate relative abundances of taxonomic groups and to assess symbiotic roles of taxonomic groups associated with AMF. The program can be applied to other microorganisms as well as soil metagenome data. The program has applications in applied environmental microbiology. The developed program is available for free of charge at www.fungalsesame.org. In the second project, I developed another bioinformatics program, called SeSaMe PS Function, for position specific functional analysis of the WGS data of the AMF. AMF may contain a large portion of genes with unknown functions for which we may not be able to find homologues in existing sequence databases. While existing motif annotation programs rely on sequence alignment and have limitations for inferring functionality of novel genes, the developed program identifies potentially important interaction sites that are structurally and functionally distinctive from other subsequences, within a query sequence with exploratory data analysis. The program identifies matching Three codon DNA 9-mers in a query sequence, and dynamically creates comparative dataset of 54 genera, based on codon usage bias information retrieved from the genus specific usage databases. The program applies correlation Principal Component Analysis in conjunction with K-means clustering method to the comparative dataset. The program identifies outliers; Three codon DNA 9-mers, assigned into a cluster with a single member or with only a few members, are often outliers with important structures that may play roles in molecular interaction. In the third project, I developed a novel bioinformatics program called Posts (POsition Specific genetic code Tables) that assigns a codon into an amino acid group according to the codon position. The standard genetic code table may be more readily applicable to the genes whose genetic codes comply with the standard biological coding rules obtained from model organisms grown under laboratory condition. However, it may be insufficient for studying evolutions of genetic codes that may provide important information about codon properties. The mainstream hypotheses of genetic code origin suggested that codon position played important roles in the evolution of genetic codes. As a case study, we investigated irregular codons in 187 mitochondrial genomes of plants, lichen-forming fungi, endophytic fungi, and AMF. Each column of the Post contains 16 codons and the amino acids encoded by these are called an amino acid characteristics group (A.A. Char Group). Based on A.A. Char Group, an irregular codon can be classified into within-column type or trans-column type. The majority of the identified irregular codons belonged to the within-column type. The Post may offer new perspectives on codon property and codon assignment. The developed program is freely available at www.codon.kr. Taken together, the developed programs, the SeSaMe, the SeSaMe PS Function, and the Post, provide important research tools for advancing our knowledge of AMF genomics and for studying their symbiotic relations with associated microorganisms. Keywords: Sesame; Spore associated Symbiotic Microbes; Symbiosis; Sesame PS function; Arbuscular mycorrhizal fungi; Three codon DNA 9-mer; Amino acid characteristics; Secondary structure; Taxonomical classification; Position specific functional analysis; Position specific genetic code tables; Post; Comparative study; Mitochondrial genomefr
dcterms.languageengfr
UdeM.ORCIDAuteurThese0000-0003-2475-0474fr


Fichier·s constituant ce document

Vignette
Fichier

Ce document figure dans la ou les collections suivantes

Afficher la notice

Ce document diffusé sur Papyrus est la propriété exclusive des titulaires des droits d'auteur et est protégé par la Loi sur le droit d'auteur (L.R.C. (1985), ch. C-42). Il peut être utilisé dans le cadre d'une utilisation équitable et non commerciale, à des fins d'étude privée ou de recherche, de critique ou de compte-rendu comme le prévoit la Loi. Pour toute autre utilisation, une autorisation écrite des titulaires des droits d'auteur sera nécessaire.