La méthode incPRINT pour identifier les complexes ARN-protéines
Pour identifier systématiquement les interactions ARN–protéines dans les cellules vivantes, nous avons développé une méthode qui mesure les interactions cellulaires entre tout ARN de test marqué et toute protéine de test marquée. Le principe d’incPRINT est la double expression transitoire d’un ARN de test marqué MS2 et d’une protéine de test marquée FLAG dans des cellules HEK293T exprimant de manière stable un détecteur de luciférase fusionné à la protéine de couche MS2 (MS2CP) à partir d’un plasmide génomique intégré (Fig. 1). L’ARN de test est attaché au détecteur de luciférase par l’interaction MS2-MS2CP; le complexe ARN-luciférase est co-purifié avec la protéine de test marquée par FLAG immunoprécipitée à partir de lysats cellulaires par un anticorps anti-FLAG (Fig. 1). Les interactions indirectes ARN-protéines pontées par l’ADN sont éliminées par traitement par DNase après l’étape de lyse cellulaire. Pour détecter chaque interaction ARN-protéine, l’ARN-MS2 co-purifié avec la protéine marquée par l’indicateur de test est mesuré par luminescence de luciférase quantifiable (Fig. 1). Pour contrôler les niveaux d’expression des protéines d’essai, l’abondance des protéines d’essai est mesurée par ELISA à l’aide d’un deuxième anticorps anti-FLAG couplé à la peroxydase de raifort (HRP) (Fig. 1). La méthode incPRINT est flexible à l’échelle, utilisable comme test à faible ou à haut débit. Pour permettre une identification systématique et à haut débit des interactions ARN-protéines cellulaires, nous avons généré une bibliothèque personnalisée de protéines marquées par un DRAPEAU humain de 3000 ∼, y compris des RBP connus de 1500 known (basés sur des refs. 10,11), fac1300 facteurs de transcription 12 et proteins170 protéines associées à la chromatine. La teneur en protéines étiquetée peut être adaptée pour s’adapter à la configuration expérimentale souhaitée.
incPRINT détecte de manière fiable les interactions ARN–protéines cellulaires
Pour établir incPRINT, nous avons effectué une série d’expériences à petite échelle en utilisant une région conservée de ∼1 kb du lncRNA Xist appelée répétition A, ci-après appelée Xist(A)13. Étant donné que plusieurs interactions Xist(A)-protéine ont été bien établies7, elles ont servi de témoins dans nos premières expériences d’impression. Nous avons conçu une construction pour exprimer Xist(A)-MS2 et évalué la capacité de l’ARN Xist(A)-MS2 à interagir avec un ensemble sélectionné de protéines se liant à Xist précédemment identifiées7,14,15. La protéine non discriminatoire de liaison à la poly(A) PABPC3 a été utilisée pour contrôler l’expression de l’ARN et l’EGFP (Protéine fluorescente verte améliorée) a été utilisée comme témoin négatif. La luminescence d’incPRINT a détecté des interactions spécifiques de Xist(A)-MS2 avec SPEN, RBM15, RBM15B, YTHDC1, HNRNPC, SRSF7 et RALY, tandis que HNRNPU, a rapporté lier Xist sur toute la longueur mais pas spécifiquement Xist(A) 7, et EGFP a montré une liaison basale (Fig. 2 bis). Le traitement par la RNase a aboli le signal d’interaction ARN–protéine mesuré par la luciférase, tandis que l’expression des protéines de test détectées par ELISA est restée pour la plupart inchangée (Fig. 2a, Fig. supplémentaire. 1a), démontrant que les interactions entre les protéines marquées et le détecteur de luciférase étaient pontées par l’ARN.
Pour optimiser le nombre de boucles de tige MS2 utilisées pour marquer l’ARN testé, Xist(A) a été fusionné avec deux, quatre, six, dix ou 24 boucles de tige MS2, et leurs interactions avec un ensemble de protéines témoins ont été testées dans une expérience incPRINT à petite échelle. Une augmentation de l’intensité de luminescence est directement corrélée à un nombre accru de boucles de tige MS2 jusqu’à dix boucles de tige sans augmentation marquée de la liaison au contrôle EGFP (Fig. supplémentaire. 1b). Par conséquent, dans toutes les expériences ultérieures d’incPRINT, les ARN ont été marqués avec dix boucles de tige MS2.
Pour déterminer si les interactions ARN–protéines détectées par incPRINT se sont effectivement produites dans les cellules ou ne sont apparues qu’in vitro après la lysise16,17, 18 des cellules, le signal de luminescence de deux expériences indépendantes a été mesuré et comparé. Dans la première expérience, l’ARN Xist(A)-MS2 et les protéines de test marquées par FLAG ont été co-transfectées dans la même population cellulaire que celle décrite ci-dessus. Dans la deuxième expérience, l’ARN Xist(A)-MS2 et les protéines de test marquées par le DRAPEAU ont été transfectées séparément dans deux populations cellulaires différentes et mises en commun uniquement après l’étape de lyse cellulaire, permettant la formation de complexes ARN–protéines exclusivement in vitro (Figure supplémentaire. 1c). Nous avons constaté que les interactions étaient détectées préférentiellement lorsque l’ARN Xist(A)-MS2 et les protéines marquées par le DRAPEAU étaient co-transfectées (la condition standard d’empreinte; Fig. 2b). Ces résultats suggèrent que chaque fois qu’un signal d’interaction est détecté par incPRINT, il provient des complexes ARN-protéines formés dans les cellules, alors que l’association de complexes ARN–protéines post-lyse cellulaire apparaît comme un arrière-plan négligeable dans des conditions spécifiques à incPRINT (Fig. 2b). Prises ensemble, ces expériences établissent qu’incPRINT mesure les interactions ARN–protéines cellulaires à l’aide d’une lecture de luminescence.
Détection à haut débit des interactions ARN–protéines
Pour tester l’évolutivité d’incPRINT pour l’identification systématique des interactions ARN–protéines, nous avons interrogé notre bibliothèque personnalisée de ~3000 protéines humaines marquées par un DRAPEAU (y compris les facteurs de transcription connus de 1500 RBPs10, 11, 1300 ∼12 et les protéines associées à la chromatine de 170 ∼), avec Xist(A)-MS2. Pour renforcer la confiance des interactions ARN-protéine identifiées dans l’empreinte, toutes les interactions ont été testées en double biologique, générant deux valeurs de luminescence (intensité de l’interaction ARN–protéine) et deux valeurs ELISA (niveau d’expression des protéines testées) pour chaque couple ARN–protéine testé. Après filtrage des protéines exprimées à des niveaux insuffisants (voir la section « Méthodes « ), les données d’interaction ont été analysées pour 2405 protéines. La reproductibilité d’incPRINT a été évaluée en calculant les scores de corrélation des doublons biologiques pour la luminescence (Fig. 2c; R2 = 0.87) et des signaux ELISA (Fig. 2d ; R2 = 0,99). Notamment, aucune corrélation entre la luminescence et les valeurs ELISA n’a été détectée, indiquant que les intensités d’interaction n’étaient pas un simple reflet des niveaux d’expression des protéines (Fig. 2e). En résumé, nos données démontrent qu’incPRINT est une méthode évolutive à haut débit qui mesure de manière reproductible les interactions ARN–protéines dans les cellules.
incPRINT identifie le protéome des ARN faiblement exprimés
Ensuite, nous avons cherché à tester si incPRINT peut identifier de manière robuste des protéines interagissant avec des transcrits exprimés à des niveaux endogènes faibles. L’identification des protéines associées à des ARN à faible nombre de copies est généralement difficile lors de l’utilisation d’approches de capture d’affinité d’ARN-MS en raison de la faible efficacité des purifications d’ARN et de la grande quantité de matériau requise pour la spectrométrie de masse. Étant donné que Firre est un ARNL d’importance fonctionnelle qui module l’architecture nucléaire d’ordre supérieur à travers les chromosomes19 et est d’une abondance endogène plutôt faible (20 molécules par cellule sur la base des données de l’ARN-Seq dans différents tissus de souris), nous avons évalué son interactome RBP avec incPRINT. Le transcrit Firre pleine longueur marqué par MS2 a été exprimé – 40 fois plus élevé que le FIRRE endogène dans les cellules HEK293T utilisées pour l’incPRINT (Fig. supplémentaire. 2 bis). Comme indiqué pour le transcript19 endogène, Firre-MS2 était préférentiellement localisé au noyau (Fig. 2b). En interrogeant notre bibliothèque d’environ 3000 protéines, incPRINT a identifié un ensemble de protéines spécifiques comme des interacteurs de Firre (Fig. 3a, points rouges; Données supplémentaires 1), alors que la majorité des protéines n’interagissaient pas avec Firre (Fig. 3a, points gris; Données supplémentaires 1). Il est important de noter qu’incPRINT a identifié des protéines à la fois connues et nouvelles interagissant avec Firre. Le CTCF et le HNRNPU, précédemment signalés par deux études indépendantes pour se lier au Firre et être importants pour sa fonctionnalité19,20, ont également été identifiés par incPRINT (Fig. 3 bis). Pour valider la liaison de nouveaux interacteurs Firre, nous avons analysé les données d’eCLIP DE code21. Les données eCLIP, disponibles pour sept RBP interagissant avec Firre identifiées par incPRINT, ont confirmé leur liaison à Firre dans la lignée cellulaire K562, validant ainsi la méthode incPRINT (Fig. supplémentaire. 2c; Données complémentaires 2). Conformément au rôle du Firre dans l’organisation nucléaire19, un ensemble d’interacteurs Firre identifiés par incPRINT étaient des protéines associées à la chromatine, notamment CHD1, POU5F1, JARID2, EPC1, SATB1, MECP2, AEBP2 et CTCF (Données supplémentaires 1). Les analyses du domaine protéique ont montré que les protéines interagissant avec Firre étaient significativement enrichies pour le motif de reconnaissance de l’ARN (RRM) (Fig. 3b; Données supplémentaires 3).
Afin de déterminer si une surexpression d’ARN était nécessaire pour que l’empreinte puisse identifier avec succès les protéines se liant à l’ARN avec des niveaux endogènes faibles, un ensemble de protéines a été testé avec différentes concentrations de Firre-MS2 allant de la surexpression décrite ci-dessus aux niveaux comparables à des FIRRE endogènes dans les cellules HEK293T (Fig. supplémentaire. 2d, e). Alors que la surexpression d’ARN entraînait des scores d’interaction plus élevés permettant leur meilleure séparation des scores de fond, le signal de luciférase était détectable de manière robuste au-dessus du signal de fond lorsque des dilutions de Firre-MS2 étaient utilisées (Fig. supplémentaire. 2d). Fait important, ce signal n’était pas associé aux niveaux d’expression des protéines testées (Fig. 2e). Ensemble, ces données démontrent l’utilité d’incPRINT pour identifier les protéines associées aux transcrits exprimés à des niveaux endogènes faibles.
incPRINT identifie des partenaires d’interaction spécifiques à une région d’ARN
Comme de nombreux LNCRNA fonctionnent comme des échafaudages modulaires, permettant la liaison de RBP spécifiques à des domaines d’ARN discrets1,5, nous avons cherché à tester si incPRINT permet l’identification d’interactions spécifiques à un domaine d’ARN. Une molécule de preuve de principe idéale est le lncRNA Xist, compte tenu de son rôle vital dans l’inactivation du chromosome X chez les mammifères (XCI) 22,23, et de sa structure et de sa fonction modulaires. La transcription Xist longue de ∼17 kb contient plusieurs régions de séquence conservées (appelées répétitions A à F) qui remplissent des fonctions distinctes au cours du processus XCI, y compris l’initiation du silençage génique (la répétition A), le maintien de l’état X-inactif (les répétitions F et B) et la localisation chromosomique appropriée et l’accumulation focale de Xist (les répétitions C et E) 13,24,25,26,27,28,29,30,31,32 (Fig. 4 bis). De plus, plusieurs études indépendantes ont précédemment identifié et validé un ensemble d’interactions protéiques fonctionnelles avec Xist7 pleine longueur,14,15,26,28,33,34,35. Nous avons cherché à appliquer incPRINT à trois régions conservées de Xist de souris, c’est-à-dire Xist(A), Xist(F) et Xist(C) (Fig. 4 bis). Lorsqu’il est exprimé dans des cellules HEK293T utilisées pour l’incPRINT, chaque fragment Xist-MS2 a montré un niveau d’expression différent par rapport au Xist endogène, allant d’une multiplication par ∼60 pour Xist(A) à un niveau d’expression quasi endogène pour Xist(C) (Fig. supplémentaire. 3 bis). Tous les fragments individuels de Xist-MS2 ont été localisés préférentiellement au noyau, de la même manière que leur homologue endogène pleine longueur (Fig. 3b). Chaque région Xist (i.e., Xist(A), Xist(F) et Xist(C)) a été interrogé avec notre bibliothèque de ~3000 protéines. Pour comparer les signaux entre différentes régions Xist exprimées à différents niveaux (Fig. 3c), les scores d’interaction pour chaque région Xist ont été normalisés à l’aide des données de liaison à l’ARN MS2 (Données supplémentaires 4). Pour la normalisation, un ensemble de 200 protéines avec des scores de luciférase de premier rang dans l’ensemble de données sur l’ARN MS2 a été défini comme des liants communs de tous les ARN marqués par MS2. Les liants communs ont ensuite été identifiés dans chaque ensemble de données et leur score médian d’interaction a été calculé pour chaque ARN testé et utilisé pour normaliser les intensités de luminescence brutes dans chaque ensemble de données (voir la section » Méthodes « ). Notamment, les données de MS2 n’ont pas été utilisées comme contrôle de la spécificité de liaison, car de nombreuses PBR reconnaissent des motifs d’ARN de faible complexité36 présents également dans l’étiquette MS2, et puisque la liaison de la protéine à MS2 n’exclut pas une interaction fonctionnelle potentielle avec un ARN de test. De même que Firre, nous avons constaté que la majorité des protéines ne se liaient à aucun des fragments Xist testés (Fig. 4b-d, points gris; Données supplémentaires 4), tandis que des ensembles spécifiques de protéines ont été identifiés pour interagir avec chaque région Xist individuelle (Fig. 4b-d, points rouges; Données supplémentaires 4). Il est important de noter que parmi les protéines interagissant avec Xist identifiées dans l’empreinte, nous avons trouvé des partenaires d’interaction bien connus de Xist identifiés dans des études précédentes pour lier le transcript7,14, 15 intégral (indiqué à la Fig. 4b-d, Tableau supplémentaire 1). En comparant les ensembles de protéines identifiées par empreinte et leurs scores d’interaction pour chaque région Xist interrogée (Données supplémentaires 4), nous avons constaté que chaque fragment Xist interagissait avec un ensemble de protéines spécifiques à la région correspondante, avec une fraction mineure de RBPs se liant aux trois régions Xist (Fig. 4e). Ainsi, l’application d’incPRINT à trois régions conservées de Xist a permis l’identification et l’affectation à des régions d’ARN spécifiques de RBPs préalablement déterminées pour lier le transcript7,14, 15 de Xist pleine longueur (Fig. 4e ; les protéines connues interagissant avec Xist sont indiquées à droite). Par exemple, incPRINT a identifié SPEN comme un interacteur spécifique à Xist(A) (Fig. 4e), confirmant les constatations précédentes7,8. De même, RBM15, RBM15B et YTHDC1 ont été identifiés par incPRINT pour interagir spécifiquement avec Xist(A) et Xist(F), mais pas Xist(C), confirmant leur liaison rapportée à l’extrémité 5′ de Xist7,9 (Fig. 4e). De plus, nous avons identifié une interaction spécifique à Xist(C) avec HNRNPU (également connue sous le nom de SAF-A) précédemment montrée impliquée dans la localisation Xist7,14,33 (Fig. 4e, Tableau supplémentaire 1). Pour valider les interactions ARN-région spécifique Xist-protéine, les données eCLIP DE CODAGE 21 disponibles pour 14 protéines identifiées par empreinte, dont plusieurs sont de nouvelles RPB interagissant avec Xist, ont confirmé leur liaison à XIST dans la lignée K562 (Fig. supplémentaire. 3d ; Données complémentaires 2), corroborant encore la spécificité de notre méthode. Une différence fonctionnelle entre les interactomes protéiques des trois régions Xist a été confirmée par des analyses d’enrichissement à terme en ontologie génique (GO). En accord avec les fonctions différentielles rapportées pour les différentes régions Xist, les protéines associées à Xist(A) et Xist(F) ont été enrichies pour les PBR impliquées dans le traitement de l’ARN, tandis que la région de répétition C interagissait préférentiellement avec des protéines de liaison à l’ADN impliquées dans la régulation transcriptionnelle (Figure supplémentaire. 3e, f). En accord avec l’analyse GO, l’analyse du domaine protéique a démontré que les protéines interagissant avec Xist(A) étaient enrichies pour les domaines protéiques SPOC (Spen paralog et ortholog C-terminal) et RRM, les protéines interagissant avec Xist(F) étaient enrichies pour le domaine RRM et les protéines interagissant avec Xist(C) ne présentaient aucun enrichissement particulier (Fig. 4f; Données supplémentaires 3), soulignant davantage la spécificité des ensembles de protéines identifiés par empreinte pour chaque région Xist. En résumé, incPRINT a réussi à récupérer les interactions Xist-protéines connues et a découvert de nouvelles PBR. En identifiant des ensembles spécifiques de protéines interagissant avec des régions individuelles conservées d’un ARNL modulaire, nous avons démontré qu’incPRINT permet l’affectation spécifique à une région des interactions ARN-protéines.
incPRINT identifie les interactions RNA–protéines fonctionnelles
Parce que Xist a une fonction cellulaire bien caractérisée dans le silençage génique pendant XCI, nous avons cherché à tester si certaines des interactions Xist-protéines découvertes à l’aide d’incPRINT sont fonctionnellement pertinentes. L’accent a été mis sur la protéine ZZZ3, qui interagit avec les trois régions Xist testées, et RBM6, qui présente une liaison plus spécifique aux régions Xist(A) et Xist(F) (Fig. 4e). Tout d’abord, nous avons confirmé l’interaction de Xist avec RBM6 et ZZZ3 dans des conditions endogènes en testant la co-précipitation de Xist avec les deux protéines dans des cellules souches embryonnaires de souris. Les protéines ont été marquées HA dans la lignée cellulaire polymorphe TX1072 ES qui permet l’expression de Xist induite par la doxycycline, déclenchant XCI en l’absence de différentiation31,37,38,39. L’immunoprécipitation à ARN (RIP) après induction par la doxycycline de Xist et la réticulation UV des cellules suivies d’analyses qRT-PCR ont permis d’identifier un enrichissement significatif du transcription Xist avec les protéines RBM6 et ZZZ3, confirmant leur interaction in vivo (Fig. 5 bis, b). Notamment, incPRINT a également identifié RBM6 comme interagissant avec Firre. RIP qRT-PCR a détecté une interaction spécifique de Firre avec RBM6 mais pas avec ZZZ3, confirmant ainsi la liaison de Firre-RBM6 dans des conditions endogènes et validant davantage nos résultats d’impression (Fig. 5 bis, b).
Ensuite, pour tester si RBM6 et ZZZ3 ont un impact sur XCI, nous avons utilisé une hybridation in situ fluorescente d’ARN unicellulaire (ARN FISH) pour évaluer l’expression de Lamp2 endogène, un gène lié à l’X qui est normalement réduit au silence pendant l’initiation de xci40. Lors de l’expression de Xist induite par la doxycycline, de l’épuisement de Rbm6, de Zzz3 et du contrôle positif Spen (Fig. supplémentaire. 4a, b) a entraîné une réduction du silence de Lamp2, tandis que son expression mono-allélique induite par XCI est restée inchangée lors de l’épuisement de Thap7, qui n’a pas interagi avec Xist et a été utilisée comme témoin négatif (Fig. 5c, d; Fig. supplémentaire. 4c; Tableau supplémentaire 2). En l’absence de conditions de Xist (-doxycycline), l’expression de Lamp2 est restée inchangée lors de l’épuisement des protéines ci-dessus (Fig. 4d; Tableau supplémentaire 2). Il est important de noter que les défauts de silençage du chromosome X n’ont pas été déclenchés par une expression altérée de Xist /Tsix lors de l’épuisement des protéines individuelles (Fig. 4e). En résumé, l’identification d’interacteurs fonctionnellement importants parmi les PBR identifiées par incPRINT démontre le potentiel de découverte d’incPRINT.