Caractérisation systématique des motifs de régulation en cis à l’échelle transcriptomique et liens avec la localisation des ARN
Thesis or Dissertation
2020-04 (degree granted: 2020-12-03)
Level
DoctoralDiscipline
Bio-informatiqueKeywords
- Localisation de l’ARN
- Régulation post-transcriptionnelle
- Transcriptomique
- ARN messagers
- ARN non codants
- Protéine liant l’ARN
- Motifs de régulation en cis
- Fractionnement subcellulaire
- Séquençage en profondeur de l’ARN
- Conservation évolutive
- RNA localization
- Post-transcriptional regulation
- Transcriptomics
- Messenger RNA
- Noncoding RNA
- RNA binding protein
- Cis-regulatory motifs
- Subcellular fractionation
- RNA-sequencing
- Evolutionary conservation
- Biology - Bioinformatics / Biologie - Bio-informatique (UMI : 0715)
Abstract(s)
La localisation subcellulaire de l’ARN permet un déploiement prompt et spatialement restreint autant des activités protéiques que des ARN noncodant. Le trafic d’ARN est dirigé par des éléments de séquences (sous-séquences primaires, structures secondaires), aussi appelés motifs de régulation, présents en cis à même la molécule d’ARN. Ces motifs sont reconnus par des protéines de liaisons aux ARN qui médient l’acheminement des transcrits vers des sites précis dans la cellule. Des études récentes, chez l’embryon de Drosophile, indiquent que la majorité des ARN ont une localisation subcellulaire asymétrique, suggérant l’existence d’un « code de localisation » complexe. Cependant, ceci peut représenter un exemple exceptionnel et la question demeurait, jusqu’ici, si une prévalence comparable de localisation d’ARN est observable chez des cellules standards développées en culture. De plus, des informations facilement disponibles à propos des caractéristiques de distribution topologique d’instances de motifs à travers des transcriptomes complets étaient jusqu’à présent manquantes.
Afin d’avoir un aperçu de l’étendue et des propriétés impliquées dans la localisation des ARN, nous avons soumis des cellules de Drosophile (D17) et de l’humain (HepG2) à un fractionnement biochimique afin d’isoler les fractions nucléaire, cytosolique, membranaire et insoluble. Nous avons ensuite séquencé en profondeur l’ARN extrait et analysé par spectrométrie de masse les protéines extraites de ces fractions. Nous avons nommé cette méthode CeFra-Seq. Par des analyses bio-informatiques, j’ai ensuite cartographié l’enrichissement de divers biotypes d’ARN (p. ex. ARN messager, ARN long non codant, ARN circulaire) et protéines au sein des fractions subcellulaires. Ceci a révélé que la distribution d’un large éventail d’espèces d’ARN codants et non codants est asymétrique. Une analyse des gènes orthologues entre mouche et humain a aussi démontré de fortes similitudes, suggérant que le processus de localisation est évolutivement conservé. De plus, j’ai observé des attributs (p. ex. la taille des transcrits) distincts parmi les populations d’ARN messagers spécifiques à une fraction. Finalement, j’ai observé des corrélations et anti-corrélations spécifiques entre certains groupes d’ARN messagers et leurs protéines.
Pour permettre l’étude de la topologie de motifs et de leurs conservations, j’ai créé oRNAment, une base de données d’instances présumée de sites de liaison de protéines chez des ARN codants et non codants. À partir de données de motifs de liaison protéique par RNAcompete et par RNA Bind-n-Seq, j’ai développé un algorithme permettant l’identification rapide d’instances potentielles de ces motifs dans un transcriptome complet. J’ai pu ainsi cataloguer les instances de 453 motifs provenant de 223 protéines liant l’ARN pour 525 718 transcrits chez cinq espèces. Les résultats obtenus ont été validés en les comparant à des données publiques de eCLIP.
J’ai, par la suite, utilisé oRNAment pour analyser en détail les aspects topologiques des instances présumées de ces motifs et leurs conservations évolutives relatives. Ceci a permis de démontrer que la plupart des motifs sont distribués de façon similaire entre espèces. De plus, j’ai discerné des points communs entre les sous-groupes de protéines liant des biotypes distincts ou des régions d’ARN spécifiques. La présence de tels patrons, similaires ou non, entre espèces est susceptible de refléter l’importance de leurs fonctions. D’ailleurs, l’analyse plus détaillée du positionnement d’un motif entre régions transcriptomiques comparables chez les vertébrés suggère une conservation synténique de ceux-ci, à divers degrés, pour tous les biotypes d’ARN. La topologie régionale de certaines instances de motifs répétées apparaît aussi comme évolutivement conservée et peut être importante afin de permettre une liaison adéquate de la protéine. Finalement, les résultats compilés avec oRNAment ont permis de postuler sur un nouveau rôle potentiel pour l’ARN long non codant HELLPAR comme éponge de protéines liant l’ARN.
La caractérisation systématique d’ARN localisés et de motifs de régulation en cis présentée dans cette thèse démontre comment l’intégration d’information à l’échelle transcriptomique permet d’évaluer la prévalence de l’asymétrie, les caractéristiques distinctes et la conservation évolutive de collections d’ARN. The subcellular localization of RNA allows a rapid and spatially restricted deployment of protein and noncoding RNA activities. The trafficking of RNA is directed by sequence elements (primary subsequences, secondary structures), also called regulatory motifs, present in cis within the RNA molecule. These motifs are recognized by RNA-binding proteins that mediate the transport of transcripts to specific sites in the cell. Recent studies in the Drosophila embryo indicate that the majority of RNAs display an asymmetric subcellular localization, suggesting the existence of a complex "localization code". However, this may represent an exceptional example and the question remained, until now, whether a comparable prevalence of RNA localization is observable in standard cells grown in culture. In addition, readily available information about the topological distribution of pattern instances across full transcriptomes has been hitherto lacking.
In order to have a broad overview of the extent and properties involved in RNA localization, we subjected Drosophila (D17) and human (HepG2) cells to biochemical fractionation to isolate the nuclear, cytosolic, membrane and insoluble fractions. We then performed deep sequencing on the extracted RNA and analyzed through mass spectrometry the proteins extracted from these fractions. We named this method CeFra-Seq. Through bioinformatics analyses, I then profiled the enrichment of various RNA biotypes (e.g. messenger RNA, long noncoding RNA, circular RNA) and proteins within the subcellular fractions. This revealed the high prevalence of asymmetric distribution of both coding and noncoding RNA species. An analysis of orthologous genes between fly and human has also shown strong similarities, suggesting that the localization process is evolutionarily conserved. In addition, I have observed distinct attributes (e.g. transcript size) among fraction-specific messenger RNA populations. Finally, I observed specific correlations and anti-correlations between defined groups of messenger RNAs and the proteins they encode. To study motifs topology and their conservation, I created oRNAment, a database of putative RNA-binding protein binding sites instances in coding and noncoding RNAs. Using data from protein binding motifs assessed by RNAcompete and by RNA Bind-n-Seq experiments, I have developed an algorithm allowing their rapid identification in a complete transcriptome. I was able to catalog the instances of 453 motifs from 223 RNA-binding proteins for 525,718 transcripts in five species. The results obtained were validated by comparing them with public data from eCLIP.
I then used oRNAment to further analyze the topological aspects of these motifs’ instances and their relative evolutionary conservation. This showed that most motifs are distributed in a similar fashion between species. In addition, I have detected commonalities between the subgroups of proteins linking preferentially distinct biotypes or specific RNA regions. The presence or absence of such pattern between species is likely a reflection of the importance of their functions. Moreover, a more precise analysis of the position of a motif among comparable transcriptomic regions in vertebrates suggests a syntenic conservation, to varying degrees, in all RNA biotypes. The regional topology of certain motifs as repeated instances also appears to be evolutionarily conserved and may be important in order to allow adequate binding of the protein. Finally, the results compiled with oRNAment allowed to postulate on a potential new role for the long noncoding RNA HELLPAR as an RNA-binding protein sponge.
The systematic characterization of RNA localization and cis regulatory motifs presented in this thesis demonstrates how the integration of information at a transcriptomic scale enables the assessment of the prevalence of asymmetry, the distinct characteristics and the evolutionary conservation of RNA clusters.
Collections
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.