Une compréhension complète de la fonction des molécules d’ARN nécessite une connaissance de leurs structures d’ordre supérieur (2D et 3D) ainsi que des caractéristiques de leur séquence primaire. La structure de l’ARN est importante pour de nombreuses fonctions, notamment la régulation de la transcription et de la traduction, la catalyse, le transport des protéines à travers les membranes et la régulation des virus à ARN. La compréhension de ces fonctions est importante pour la biologie fondamentale ainsi que pour le développement de médicaments pouvant intervenir dans les cas où la fonctionnalité pathologique de ces molécules se produit.
Notre groupe fait de la recherche et du développement de méthodologies pour améliorer le repliement de l’ARN et les techniques d’analyse afin de mieux comprendre les propriétés fonctionnelles de ces molécules. De plus, nous nous concentrons sur le domaine émergent de la nanobiologie de l’ARN. L’ARN représente un matériau moléculaire relativement nouveau pour le développement de nano-dispositifs biologiquement orientés. C’est un matériau intéressant en raison de ses fonctionnalités naturelles, de sa capacité à se plier en structures complexes et à s’auto-assembler. Nous avons développé des méthodologies de calcul et expérimentales qui permettent la conception de nanoparticules à base d’ARN qui ont potentiellement diverses utilisations. Ainsi, notre recherche sur l’ARN couvre cinq domaines de recherche hautement liés et intégrés :
- Recherche en algorithmes pour la prédiction et l’analyse de la structure secondaire de l’ARN;
- Biologie de l’ARN et sa relation avec les caractéristiques de repliement de la séquence et de la structure secondaire;
- Recherche en algorithmes pour la prédiction et l’analyse de la structure 3D de l’ARN et leur application à la biologie de l’ARN;
- Recherche en algorithmes pour la conception et l’analyse de nanoparticules d’ARN;
- Conception expérimentale, synthèse et délivrance de nanoparticules à base d’ARN.
Ce qui est appris dans un domaine est appliqué aux autres domaines, ce qui améliore notre compréhension de la structure, de la fonction et de la nanobiologie de l’ARN et de son auto-assemblage.
Biologie computationnelle parallèle et Structure de l’ARN
Des changements révolutionnaires dans les paradigmes de calcul sont nécessaires pour maintenir la puissance de calcul nécessaire pour résoudre les problèmes de biologie moléculaire. On ne pouvait pas s’attendre à ce que les méthodologies basées sur des architectures informatiques séquentielles suivent continuellement le rythme des vitesses de calcul nécessaires. Afin de s’adapter aux vitesses élevées nécessaires, des techniques de calcul hautement parallèles sont maintenant utilisées. Notre groupe a été l’un des pionniers dans le domaine de la biologie computationnelle et de l’utilisation d’architectures informatiques parallèles à haute performance pour cette entreprise.
Techniques de calcul pour la Prédiction et l’Analyse de la Structure secondaire de l’ARN
Nous avons été les premiers à développer une technique de repliement de l’ARN qui utilise des concepts d’algorithmes génétiques. Notre algorithme, MPGAfold, a été développé à l’origine pour fonctionner sur un supercalculateur SIMD massivement parallèle, un MasPar MP-2 avec 16384 processeurs. Cet algorithme a été modifié et fonctionne désormais sur des clusters Linux parallèles hautes performances. Des caractéristiques de mise à l’échelle exceptionnelles sont obtenues avec la possibilité d’exécuter l’algorithme avec des centaines de milliers d’éléments de population. La prédiction de pseudoknot d’ARN fait partie de l’algorithme génétique, ce qui entraîne sa capacité à prédire les interactions tertiaires. D’autres caractéristiques comprennent la simulation du pliage co-transcriptionnel, la capacité d’incorporer différentes règles d’énergie et l’inhibition et l’intégration forcées des tiges hélicoïdales souhaitées. De plus, STRUCTURELAB, notre atelier d’analyse d’ARN bioinformatique hétérogène, peut être utilisé conjointement avec MPGAfold et RNA2D3D pour produire des coordonnées atomiques 3D prédites des structures d’ARN ainsi que la visualisation de ces structures. De plus, nous avons développé une nouvelle méthodologie de visualisation interactive qui fait partie de STRUCTURELAB. Cette technique permet la comparaison et l’analyse de plis d’ARN à séquences multiples d’un point de vue phylogénétique, permettant ainsi d’améliorer les résultats structurels prédits à travers une famille de séquences.
Nous avons développé KNetFold, un algorithme nouveau et puissant pour la prédiction de la structure de l’ARN à partir d’alignements de séquences. L’algorithme utilise un réseau de classification hiérarchique unique basé sur l’information mutuelle, la thermodynamique et la paire de bases Watson-Crick pour prédire les structures. De plus, nous avons développé une application Web, CorreLogo, qui utilise des informations mutuelles dérivées des alignements de séquences d’ARN pour déterminer les covariations entre les positions appariées de base. L’algorithme comprend une mesure d’erreur unique et représente les résultats en 3D.
Nous avons développé, CyloFold, un algorithme unique pour prédire, à partir d’une seule séquence, des structures secondaires d’ARN pouvant inclure des pseudoknots. Cet algorithme utilise une nouvelle technique qui se rapproche du potentiel d’affrontements stériques 3D dans les structures prédites, filtrant ainsi ces structures de la prise en compte. Il a été démontré que l’algorithme a une grande précision par rapport à d’autres algorithmes de ce type.
Nous avons développé un logiciel web basé sur une approche statistique bayésienne qui estime la précision de la formation de paires de bases à partir de données issues d’expériences de FORME (Acylation sélective de 2′-Hydroxyle analysée par Extension d’Amorces). Les résultats statistiques/ probabilistes ont été obtenus en analysant des structures d’ARN 3D connues ayant différents types d’interactions de base connues, et en les corrélant avec des valeurs de FORME. Il a été montré que les faibles valeurs de FORME sont bien corrélées avec les interactions d’appariement et d’empilement des bases Watson-Crick, tandis que les valeurs de FORME élevées indiquent des régions à simple brin. Des améliorations pourraient être constatées si un contexte de base 2 ou 3 était également pris en compte. Nous avons également montré que d’autres types d’interactions connues n’étaient pas bien corrélés. Ce type d’information est utile pour déterminer en fin de compte la structure secondaire des ARN.
Les études computationnelles des voies de repliement de l’ARN
Les voies de repliement de l’ARN s’avèrent très importantes dans la détermination de la fonction de l’ARN. Des études indiquent que l’ARN peut entrer dans des états conformationnels intermédiaires qui sont essentiels à sa fonctionnalité. Ces états peuvent avoir un impact significatif sur l’expression des gènes. On sait que les états biologiquement fonctionnels des molécules d’ARN peuvent ne pas correspondre à leur état d’énergie minimale, qu’il peut exister des barrières cinétiques qui emprisonnent la molécule dans un minimum local, que le repliement se produit souvent lors de la transcription, et qu’il existe des cas dans lesquels une molécule va passer d’une ou plusieurs conformations fonctionnelles avant d’atteindre son état natif. Ainsi, les méthodes de simulation des voies de repliement d’une molécule d’ARN, y compris le repliement co-transcriptionnel, et de localisation d’états intermédiaires significatifs sont importantes pour la prédiction de la structure de l’ARN et de sa fonction associée. Plusieurs voies biologiques de repliement de l’ARN ont été étudiées avec succès en utilisant MPGAfold et STRUCTURELAB. Les exemples incluent le viroïde du tubercule de la pomme de terre, le mécanisme de destruction de l’hôte du plasmide R1 d’Escherichia coli, le virus de l’hépatite delta, le VIH et le virus de la dengue. Ces résultats de calcul sont cohérents avec ceux issus d’expériences biologiques. De plus, de nouvelles interactions structurelles et d’importants états fonctionnels intermédiaires et natifs ont été prédits. Ceux-ci ont conduit à d’autres expériences de confirmation réussies.
Prédiction computationnelle des réseaux d’interaction d’ARN
Nous avons également développé les programmes CovaRna et CovStat pour explorer les réseaux d’interaction d’ARN co-variant à longue distance en utilisant des alignements de génome entier. Cette nouvelle méthodologie, qui a été appliquée aux génomes de Drosophiles, est actuellement appliquée à d’autres génomes. Une version parallèle du programme a été conçue pour accélérer le traitement et les algorithmes s’appuient également sur des schémas d’indexation rapides et des méthodes statistiques conservatrices pour déterminer des interactions très significatives. La méthodologie a trouvé des interactions intéressantes liées aux ARNSI endogènes, au transport des gènes et aux gènes liés à la morphogenèse.
Études computationnelles des Structures d’ARN tridimensionnelles
Certains éléments structuraux des molécules d’ARN ont été étudiés à l’aide de simulations de mécanique moléculaire et de dynamique moléculaire. Les structures examinées comprennent une tétraloop d’ARN où une dénaturation dépendante de la température de la tétraloop et le repliement ultérieur à la structure cristalline d’origine ont été effectués. Une jonction à trois voies du domaine central du noyau de la sous-unité ribosomique des ANNÉES 30 de Thermus thermophilus a été explorée. Il a été déterminé expérimentalement que les interactions intermoléculaires entre la jonction à trois voies et la protéine ribosomique S15 initient le processus d’assemblage de la sous-unité ribosomique 30S. En utilisant des simulations de dynamique moléculaire, nous avons obtenu des informations sur les transitions conformationnelles de la jonction associées à la liaison de S15. Nous avons déterminé à l’aide de simulations de dynamique moléculaire les effets structurels de l’utilisation de nouveaux types de nucléotides d’ARN modifiés contenant des sucres carbocycliques qui sont contraints aux conformations nord ou sud (exo C2′ ou C3′). De plus, nous avons montré, à l’aide de simulations de dynamique moléculaire, comment les ions et les bases flanquantes jouent un rôle très important dans les conformations des monomères en boucle embrassante du virus de l’immunodéficience humaine (VIH). Ces résultats sont bien corrélés et peuvent expliquer en détail les études expérimentales qui indiquent l’importance des ions pour la dimérisation du VIH-1.
Nous avons également examiné le domaine pseudoknot de la télomérase. La modélisation moléculaire et la dynamique moléculaire du domaine pseudoknot, y compris sa boucle en épingle à cheveux, ont été effectuées. Les résultats ont indiqué comment la dynamique de la boucle en épingle à cheveux affectait l’ouverture et la fermeture des paires de bases U-U non canoniques trouvées dans la tige. L’ouverture suggérait des points de nucléation pour la formation du pseudoknot. Nous avons également examiné l’effet des mutations de dyskératose congénitale (DKC) dans la boucle et comment elles réduisaient la propension à l’ouverture de la tige en formant un réseau de liaisons hydrogène relativement stable dans la boucle en épingle à cheveux. Nous avons modélisé le pseudoknot lui-même en utilisant notre logiciel RNA2D3D combiné à une analyse phylogénétique. Nous avons étudié l’impact dynamique des mutations DKC sur le pseudoknot avec pour résultat que le pseudoknot est devenu instable tandis que la forme en épingle à cheveux est devenue plus stable.
Nous avons découvert et élucidé les structures 3D de nouveaux types d’améliorateurs de traduction que l’on trouve dans les 3’UTR du Virus du Plissement du Navet (le premier du genre trouvé) et du Virus de la Mosaïque de l’énation du Pois. La découverte de ces éléments structurels a mis en lumière de nouveaux mécanismes d’amélioration de la traduction chez les virus de plantes eucaryotes qui pourraient avoir des implications plus larges pour la compréhension des mécanismes de traduction en général. Cela a été accompli grâce à l’utilisation combinée de MPGAfold, notre logiciel de modélisation moléculaire 3D RNA2D3D, et à des interactions étroites avec nos collaborateurs expérimentaux. Nous avons également modélisé un nouveau pseudoknot trouvé dans l’ARNm CCR5. Ce pseudoknot est impliqué dans le frameshifting et semble être stabilisé par un microARN, une fonction nouvelle pour un microARN.
De plus, nous avons utilisé des méthodes basées sur l’interpolation de réseau élastique pour réduire les coûts de calcul liés à la dynamique 3D de l’ARN. Les trajectoires dynamiques tridimensionnelles peuvent être déterminées en utilisant une représentation réduite des atomes et des états conformationnels donnés. Le temps de calcul peut être réduit de semaines à heures en utilisant cette approche.
Nanobiologie computationnelle de l’ARN
La nanobiologie de l’ARN représente une nouvelle modalité pour le développement de nanodispositifs susceptibles d’être utilisés dans un certain nombre de domaines, y compris thérapeutiques. En nous appuyant sur notre expérience décrite ci-dessus, nous avons développé plusieurs techniques de calcul et expérimentales (voir ci-dessous) qui fournissent un moyen de déterminer un ensemble de séquences nucléotidiques pouvant s’assembler en nano complexes souhaités. L’un de ces outils est une base de données relationnelle appelée RNAJunction. La base de données contient des informations sur la structure et la séquence des jonctions hélicoïdales d’ARN connues et des interactions en boucle embrassante. Ces motifs peuvent être recherchés de différentes manières, fournissant une source de nano-blocs de construction d’ARN. Un autre outil de calcul, NanoTiler, permet à un utilisateur de construire des formes nanométriques spécifiées à base d’ARN. NanoTiler fournit une vue graphique 3D des objets en cours de conception et fournit les moyens de travailler de manière interactive ou avec des scripts informatiques sur le processus de conception même si les séquences d’ARN précises ne sont pas encore spécifiées et qu’un modèle tout atome n’est pas disponible. NanoTiler peut utiliser les motifs 3D trouvés dans la base de données RNAJunction avec ceux dérivés de modèles de structure secondaire d’ARN spécifiés pour construire une forme nanométrique d’ARN définie. En outre, une recherche combinatoire peut être appliquée pour énumérer des structures qui ne seraient normalement pas prises en compte.
Un autre outil logiciel basé sur le web pour la conception de nanostructures d’ARN est NanoFolder, qui est l’un des rares outils logiciels capables de prédire la structure et les attributs de séquence des constructions d’ARN multibrins. Avec ce logiciel, il est possible de spécifier les motifs de structure secondaires souhaités et de faire prédire au logiciel l’ensemble des séquences qui génèrent ces motifs souhaités avec les caractéristiques de pliage intra et inter-brins correctes.
Nanobiologie expérimentale de l’ARN
Sur la base des approches informatiques décrites ci-dessus pour la nanodesign de l’ARN, nous avons démontré la capacité d’auto-assembler et de fonctionnaliser expérimentalement plusieurs nanoparticules à base d’ARN. Cela a été accompli grâce à des interactions étroites entre les approches expérimentales et informatiques, ce qui a conduit à des améliorations des deux ensembles de méthodologies. Les exemples incluent l’auto-assemblage de cubes à 6 et 10 brins; l’auto-assemblage d’anneaux hexagonaux de différentes tailles et d’anneaux doubles utilisant un motif d’ARN extrait de la nature; la modification des séquences dans le motif pour améliorer le rendement tout en conservant des géométries appropriées; et l’auto-assemblage de structures triangulaires. Nous avons également développé des techniques qui définissent des protocoles d’auto-assemblage et qui permettent l’assemblage co-transcriptionnel de constructions pouvant également inclure des bases modifiées pour augmenter la stabilité chimique de ces nanoparticules. De plus, nous avons fonctionnalisé ces particules avec jusqu’à six ARNSI différents pour permettre une stoechiométrie contrôlée et un silençage génique, et nous avons montré que ces particules font effectivement taire les gènes désignés lorsqu’elles sont transfectées dans diverses lignées cellulaires.
Nous avons également exploré un autre paradigme basé sur l’utilisation de nanoconstructures hybrides ARN/ADN contenant des fonctionnalités divisées. Cela permet, par exemple, la division d’un ARNsi Diceable en deux composants hybrides ADN / ARN avec des trous de tête d’ADN, qui, une fois transfectés dans des cellules, se réassemblent en un duplex d’ADN et un ARNsi Diceable. Cette approche hybride a été intégrée à nos nanorings et nanocubes hexagonaux. L’utilité de cette approche permet, entre autres, une activation contrôlée des fonctionnalités, l’incorporation de balises moléculaires sur les brins d’ADN sans intégration avec la fonctionnalité de l’ARN et la résistance à la dégradation des nucléases. Cette approche a été testée avec succès dans des cultures cellulaires et des modèles de souris tumorales xénographiques.
De nombreux systèmes de calcul ont été adaptés à d’autres environnements à l’intérieur et à l’extérieur de notre laboratoire et du NIH et sont accessibles via notre site Web à http://www-CCRNP.ncifcrf.gov/~bshapiro.