Unfolding RNA 3D structures for secondary structure prediction benchmarking
Thesis or Dissertation
Abstract(s)
Les acides ribonucléiques (ARN) forment des structures tri-dimensionnelles complexes
stabilisées par la formation de la structure secondaire (2D), elle-même formée de paires
de bases. Plusieurs méthodes computationnelles ont été créées dans les dernières années
afin de prédire la structure 2D d’ARNs, en partant de la séquence. Afin de simplifier
le calcul, ces méthodes appliquent généralement des restrictions sur le type de paire de
bases et la topologie des structures 2D prédites. Ces restrictions font en sorte qu’il est
parfois difficile de savoir à quel point la totalité des paires de bases peut être représentée
par ces structures 2D restreintes.
MC-Unfold fut créé afin de trouver les structures 2D restreintes qui pourraient être associées à une structure secondaire complète, en fonction des restrictions communément
utilisées par les méthodes de prédiction de structure secondaire.
Un ensemble de 321 monomères d’ARN totalisant plus de 4223 structures fut assemblé
afin d’évaluer les méthodes de prédiction de structure 2D. La majorité de ces structures
ont été déterminées par résonance magnétique nucléaire et crystallographie aux rayons
X. Ces structures ont été dépliés par MC-Unfold et les structures résultantes ont été comparées à celles prédites par les méthodes de prédiction.
La performance de MC-Unfold sur un ensemble de structures expérimentales est encourageante. En moins de 5 minutes, 96% des 227 structures ont été complètement dépliées,
le reste des structures étant trop complexes pour être déplié rapidement. Pour ce qui est
des méthodes de prédiction de structure 2D, les résultats indiquent qu’elles sont capable
de prédire avec un certain succès les structures expérimentales, particulièrement les petites molécules. Toutefois, si on considère les structures larges ou contenant des pseudo-noeuds, les résultats sont généralement défavorables. Les résultats obtenus indiquent que
les méthodes de prédiction de structure 2D devraient être utilisées avec prudence, particulièrement pour de larges molécules. Ribonucleic acids (RNA) adopt complex three dimensional structures which are stabilized by the formation of base pairs, also known as the secondary (2D) structure. Predicting where and how many of these interactions occur has been the focus of many computational methods called 2D structure prediction algorithms. These methods disregard
some interactions, which makes it difficult to know how well a 2D structure represents
an RNA structure, especially when large amounts of base pairs are ignored.
MC-Unfold was created to remove interactions violating the assumptions used by prediction methods. This process, named unfolding, extends previous planarization and
pseudoknot removal methods. To evaluate how well computational methods can predict
experimental structures, a set of 321 RNA monomers corresponding to more than 4223
experimental structures was acquired. These structures were mostly determined using
nuclear magnetic resonance and X-ray crystallography. MC-Unfold was used to remove
interactions the prediction algorithms were not expected to predict. These structures
were then compared with the structured predicted.
MC-Unfold performed very well on the test set it was given. In less than five minutes,
96% of the 227 structure could be exhaustively unfolded. The few remaining structures
are very large and could not be unfolded in reasonable time. MC-Unfold is therefore a
practical alternative to the current methods.
As for the evaluation of prediction methods, MC-Unfold demonstrated that the computational methods do find experimental structures, especially for small molecules. However,
when considering large or pseudoknotted molecules, the results are not so encouraging.
As a consequence, 2D structure prediction methods should be used with caution, especially for large structures.
This document disseminated on Papyrus is the exclusive property of the copyright holders and is protected by the Copyright Act (R.S.C. 1985, c. C-42). It may be used for fair dealing and non-commercial purposes, for private study or research, criticism and review as provided by law. For any other use, written authorization from the copyright holders is required.