metoda incPRINT pentru identificarea complexelor ARN–proteine
pentru identificarea sistematică a interacțiunilor ARN–proteină în celulele vii, am dezvoltat o metodă care măsoară interacțiunile celulare dintre orice ARN de test etichetat și orice proteină de test etichetată. Principiul incPRINT este expresia duală tranzitorie a unui ARN de test marcat cu MS2 și a unei proteine de test etichetate cu pavilion în celulele HEK293T care exprimă stabil un detector de luciferază fuzionat cu proteina de acoperire MS2 (MS2CP) dintr-o plasmidă integrată genomic (Fig. 1). ARN-ul de test este legat de detectorul de luciferază prin interacțiunea MS2-MS2CP; complexul ARN-luciferază este co-purificat cu proteina de test marcată cu pavilion imunoprecipitată din lizați celulari de anticorp anti-Pavilion (Fig. 1). Interacțiunile indirecte ARN-proteină legate de ADN sunt eliminate prin tratamentul cu Dnază după etapa de liză celulară. Pentru a detecta fiecare interacțiune ARN-proteină, ARN-MS2 Co-purificat cu proteina marcată cu pavilion de test este măsurat prin luminiscență cuantificabilă a luciferazei (Fig. 1). Pentru a controla nivelurile de expresie a proteinelor testate, abundența proteinelor testate este măsurată prin ELISA folosind un al doilea anticorp anti-Pavilion cuplat la peroxidază de hrean (HRP) (Fig. 1). Metoda incPRINT este flexibilă la scară, utilizabilă ca test de debit scăzut sau ridicat. Pentru a permite identificarea sistematică, cu randament ridicat a interacțiunilor ARN-proteine celulare, am generat o bibliotecă personalizată de 3000 de proteine umane marcate cu pavilion, inclusiv 1500 de RBPs cunoscute (bazate pe refs. 10,11), 1300 factori de transcripție12 și 170 proteine asociate cromatinei. Conținutul de proteine etichetat poate fi adaptat pentru a se potrivi configurației experimentale dorite.
incPRINT detectează în mod fiabil interacțiunile ARN–proteine celulare
pentru a stabili incPRINT, am efectuat o serie de experimente la scară mică folosind o regiune conservată de 1-kb a lncRNA Xist numită repetare a, denumită în continuare Xist(a)13. Deoarece mai multe interacțiuni Xist(a)-proteine au fost bine stabilite7, ele au servit ca controale în experimentele noastre inițiale de imprimare. Am proiectat o construcție pentru a exprima Xist(a)-MS2 și am testat capacitatea ARN-ului Xist (a) – MS2 de a interacționa cu un set selectat de proteine de legare Xist identificate anterior7,14,15. Proteina nediscriminatorie de legare Poli (A) PABPC3 a fost utilizată pentru controlul expresiei ARN și EGFP (Enhanced green Fluorescent Protein) a fost utilizată ca un control negativ. luminescența incPRINT a detectat interacțiuni specifice ale Xist(a)-MS2 cu SPEN, RBM15, RBM15B, YTHDC1, HNRNPC, SRSF7 și RALY, în timp ce HNRNPU, a raportat că leagă Xist de lungime completă, dar nu în mod specific Xist (a) 7, iar EGFP a arătat legare bazală (Fig. 2a). Tratamentul cu Rnază a abolit semnalul de interacțiune ARN-proteină măsurat de luciferază, în timp ce expresia proteinelor testate detectate de ELISA a rămas în mare parte neschimbată (Fig. 2a, suplimentar Fig. 1a), demonstrând că interacțiunile dintre proteinele etichetate și detectorul de luciferază au fost legate de ARN.
pentru a optimiza numărul de bucle stem MS2 utilizate pentru a eticheta ARN-ul testat, Xist(a) a fost fuzionat cu două, patru, șase, zece sau 24 MS2 bucle stem, iar interacțiunile lor cu un set de proteine de control au fost testate într-un experiment incPRINT la scară mică. O creștere a intensității luminiscenței corelată direct cu un număr crescut de bucle stem MS2 până la zece bucle stem fără o creștere marcată a legării la controlul EGFP (Fig suplimentar. 1b). Prin urmare, în toate experimentele incPRINT ulterioare, ARN-urile au fost etichetate cu zece bucle stem MS2.
pentru a determina dacă interacțiunile ARN–proteină detectate de incPRINT au apărut într-adevăr în celule sau au apărut numai in vitro după lizoza celulară16,17,18, semnalul de luminiscență din două experimente independente a fost măsurat și comparat. În primul experiment, ARN-ul Xist(a)-MS2 și proteinele de testare marcate cu steag au fost co-transfectate în aceeași populație de celule descrisă mai sus. În cel de-al doilea experiment, ARN-ul Xist(a)–MS2 și proteinele de testare marcate cu steag au fost transfectate separat în două populații de celule diferite și reunite numai după etapa de liză celulară, permițând formarea complexelor ARN-proteine exclusiv in vitro (Fig suplimentar. 1c). Am constatat că interacțiunile au fost detectate preferențial atunci când ARN-ul Xist(a)-MS2 și proteinele marcate cu pavilion au fost co-transfectate (condiția standard de amprentă; Fig. 2b). Aceste rezultate sugerează că ori de câte ori un semnal de interacțiune a fost detectat de incPRINT, acesta a provenit din complexele ARN–proteine formate în celule, în timp ce asocierea complexelor ARN–proteine post-liza celulară a apărut ca fundal neglijabil în condiții specifice incPRINT (Fig. 2b). Luate împreună, aceste experimente stabilesc că incPRINT măsoară interacțiunile ARN–proteine celulare folosind o citire a luminiscenței.
detectarea cu randament ridicat a interacțiunilor ARN-proteină
pentru a testa scalabilitatea incPRINT pentru identificarea sistematică a interacțiunilor ARN–proteină, am interogat biblioteca noastră personalizată de ~3000 de proteine umane marcate cu pavilion (inclusiv 1500 de proteine cunoscute rbps10,11, 1300 de factori de transcripție 12 și 170 de proteine asociate cromatinei), cu Xist(a)–MS2. Pentru a consolida încrederea interacțiunilor ARN–proteină identificate de incPRINT, toate interacțiunile au fost testate în duplicat biologic, generând două luminescențe (intensitatea interacțiunii ARN–proteină) și două valori ELISA (nivelul de expresie a proteinelor testate) pentru fiecare cuplu ARN–proteină testat. După filtrarea proteinelor exprimate la niveluri insuficiente( vezi secțiunea ‘Metode’), au fost analizate datele de interacțiune pentru 2405 proteine. reproductibilitatea incPRINT a fost evaluată prin calcularea scorurilor de corelație ale duplicatelor biologice atât pentru luminiscență (Fig. 2c; R2 = 0.87) și semnalele ELISA (Fig. 2d; R2 = 0,99). În special, nu a fost detectată nicio corelație între luminiscență și valorile ELISA, indicând faptul că intensitățile interacțiunii nu au fost o simplă reflectare a nivelurilor de expresie a proteinelor (Fig. 2e). Pe scurt, datele noastre demonstrează că incPRINT este o metodă scalabilă de mare viteză care măsoară reproductibil interacțiunile ARN-proteină în celulă.
incPRINT identifică proteomul ARN-urilor slab exprimate
în continuare, am încercat să testăm dacă incPRINT poate identifica în mod robust proteinele care interacționează cu transcrierile exprimate la niveluri endogene scăzute. Identificarea proteinelor asociate cu ARN-uri cu număr redus de copii este, în general, dificilă atunci când se utilizează abordări de captare a afinității ARN-MS datorită eficienței tipic scăzute a purificărilor ARN și a cantității mari de material necesar pentru spectrometria de masă. Deoarece Firre este un lncRNA important din punct de vedere funcțional care modulează arhitectura nucleară de ordin superior între cromozomi19 și are o abundență endogenă destul de scăzută (20 de molecule pe celulă pe baza datelor ARN-Seq pe diferite țesuturi de șoarece), am evaluat RBP-interacomul său cu incPRINT. Transcrierea Firre de lungime întreagă marcată de MS2 a fost exprimată de 40 de ori mai mare decât FIRRE endogen în celulele HEK293T utilizate pentru incPRINT (Fig suplimentar. 2a). După cum sa raportat pentru transcriptul endogen19, Firre-MS2 a fost localizat preferențial la nucleu (Fig suplimentar. 2b). Interogând biblioteca noastră de ~ 3000 de proteine, incPRINT a identificat un set de proteine specifice ca interactori Firre (Fig. 3A, puncte roșii; date suplimentare 1), în timp ce majoritatea proteinelor nu au interacționat cu Firre (Fig. 3A, puncte gri; date suplimentare 1). Important, incPRINT a identificat atât proteine cunoscute, cât și proteine noi care interacționează. CTCF și HNRNPU, raportate anterior de două studii independente pentru a lega Firre și a fi importante pentru funcția sa19,20, au fost, de asemenea, identificate prin incPRINT (Fig. 3a). Pentru a valida legarea interacțiunilor Firre noi, am analizat datele encode eclip21. Datele eCLIP, disponibile pentru șapte RBP-uri cu interacțiune firre identificate prin incPRINT, au confirmat legarea lor de Firre în linia celulară K562, validând în continuare metoda incPRINT (Fig suplimentar. 2c; date suplimentare 2). În concordanță cu rolul Firre în organizarea nucleară19, un set de interacțiuni Firre identificate prin incPRINT au fost proteinele asociate cromatinei, inclusiv CHD1, POU5F1, JARID2, EPC1, SATB1, MECP2, AEBP2 și CTCF (date suplimentare 1). Analizele domeniului proteic au arătat că proteinele care interacționează Firre au fost îmbogățite semnificativ pentru motivul de recunoaștere a ARN (RRM) (Fig. 3b; date suplimentare 3).
pentru a determina dacă supraexprimarea ARN a fost necesară pentru incPRINT pentru a identifica cu succes proteinele care se leagă de ARN cu niveluri endogene scăzute, a fost testat un set de proteine cu concentrații diferite de Firre-MS2 variind de la supraexpresie așa cum este descris mai sus până la niveluri comparabile cu FIRRE endogen în celulele HEK293T (Fig suplimentar. 2d, e). În timp ce supraexprimarea ARN a dus la scoruri de interacțiune mai mari, permițând o mai bună separare a acestora de scorurile de fundal, semnalul luciferazei a fost puternic detectabil deasupra semnalului de fundal atunci când s-au utilizat diluții de Firre-MS2 (Fig suplimentar. 2d). Important, acest semnal nu a fost asociat cu nivelurile de Expresie ale proteinelor testate (Fig suplimentar. 2e). Împreună, aceste date demonstrează utilitatea incPRINT în identificarea proteinelor asociate cu transcrierile exprimate la niveluri endogene scăzute.
incPRINT identifică partenerii de interacțiune specifici regiunii ARN
deoarece multe lncrn-uri funcționează ca schele modulare, permițând legarea RBP-urilor specifice domeniilor ARN discrete 1,5, am căutat să testăm dacă incPRINT permite identificarea interacțiunilor specifice domeniului ARN. O moleculă ideală de dovadă a principiului este Lncrna Xist, având în vedere rolul său vital în inactivarea cromozomului X la mamifere (XCI)22,23, și structura și funcția sa modulară. Transcrierea Xist lungă de 17 kb de la Xist conține mai multe regiuni de secvență conservate (numite repetări de la A la F) care îndeplinesc funcții distincte în timpul procesului XCI, inclusiv inițierea tăcerii genei (repetarea A), menținerea stării inactive X (repetările F-și B) și localizarea cromozomială adecvată și acumularea focală a Xist (repetările C – și E)13,24,25,26,27,28,29,30,31,32 (Fig. 4a). Mai mult, mai multe studii independente au identificat și validat anterior un set de interacțiuni proteice funcționale cu Xist7 de lungime completă,14,15,26,28,33,34,35. Am căutat să aplicăm incPRINT pe trei regiuni conservate ale mouse-ului Xist, adică Xist(a), Xist(F) și Xist (c) (Fig. 4a). Atunci când este exprimat în celule HEK293T utilizate pentru incPRINT, fiecare fragment Xist-MS2 a prezentat un nivel diferit de exprimare în comparație cu Xist endogen, variind de la o creștere de 60 de ori a Xist(a) la un nivel de Expresie aproape endogen pentru Xist(C) (Fig suplimentar. 3a). Toate fragmentele individuale Xist-MS2 au fost localizate preferențial la nucleu, similar cu omologul lor endogen de lungime completă (Fig suplimentar. 3b). Fiecare regiune Xist (i. e., Xist(A), Xist(F) și Xist (C)) a fost interogat cu biblioteca noastră de ~3000 de proteine. Pentru a compara semnalele între regiunile Xist individuale exprimate la diferite niveluri (Fig suplimentar. 3c), scorurile de interacțiune pentru fiecare regiune Xist au fost normalizate utilizând datele de legare a ARN-ului MS2 (date suplimentare 4). Pentru normalizare, un set de 200 de proteine cu scoruri de luciferază de top în setul de date ARN MS2 a fost definit ca lianți comuni ai tuturor ARN-urilor marcate cu MS2. Lianții comuni au fost apoi identificați în fiecare set de date și scorul lor median de interacțiune a fost calculat pentru fiecare ARN testat și utilizat pentru a normaliza intensitățile luminiscenței brute în fiecare set de date (vezi secțiunea ‘Metode’). În special, datele MS2 nu au fost utilizate ca un control al specificității de legare, deoarece multe RBP recunosc motif-urile ARN de complexitate redusă36 prezente și în eticheta MS2 și, deoarece legarea proteinelor la MS2 nu exclude o interacțiune funcțională potențială cu un ARN de test. În mod similar cu Firre, am constatat că majoritatea proteinelor nu s-au legat de niciunul dintre fragmentele Xist testate (Fig. 4B-d, puncte gri; date suplimentare 4), în timp ce seturi specifice de proteine au fost identificate pentru a interacționa cu fiecare regiune Xist individuală (Fig. 4B-d, puncte roșii; date suplimentare 4). Important, printre proteinele care interacționează cu Xist identificate prin amprentă, am găsit parteneri de interacțiune bine cunoscuți ai Xist identificați în studiile anterioare pentru a lega transcriptul de lungime7,14,15 (indicat în Fig. 4b-d, tabelul suplimentar 1). Comparând seturile de proteine identificate prin incPRINT și scorurile lor de interacțiune pentru fiecare regiune Xist interogată (date suplimentare 4), am constatat că fiecare fragment Xist a interacționat cu un set de proteine specifice regiunii corespunzătoare, cu o fracțiune minoră de RBPs care se leagă de toate cele trei regiuni Xist (Fig. 4e). Astfel, aplicarea amprentei la trei regiuni conservate ale Xist a permis identificarea și atribuirea către regiuni ARN specifice ale RBPs determinate anterior pentru a lega transcriptul Xist de lungime întregă7,14,15 (Fig. 4E; proteinele cunoscute care interacționează cu Xist sunt indicate în dreapta). De exemplu, incPRINT a identificat SPEN ca un interactor specific Xist(a) (Fig. 4e), confirmând constatările anterioare7, 8. În mod similar, RBM15, RBM15B și YTHDC1 au fost identificate prin incPRINT pentru a interacționa în mod specific cu Xist(a) și Xist(F), dar nu Xist(C), confirmând legarea lor raportată la capătul 5′ al Xist7,9 (Fig. 4e). Mai mult,am identificat o interacțiune specifică Xist(C) cu HNRNPU (cunoscut și sub numele de SAF-A) dovedit anterior a fi implicat în localizarea Xist7,14, 33 (Fig. 4e, tabelul suplimentar 1). Pentru a valida interacțiunile Xist-proteină specifice regiunii ARN, datele encode eclip21 disponibile pentru 14 proteine identificate prin amprentă, dintre care mai multe sunt RPB-uri noi care interacționează cu Xist, au confirmat legarea lor la XIST în linia K562 (Fig suplimentar. 3d; date suplimentare 2), coroborând în continuare specificitatea metodei noastre. O diferență funcțională între interactomii proteici din cele trei regiuni Xist a fost confirmată de ontologia genelor (Go) analize de îmbogățire a termenului. În concordanță cu funcțiile diferențiale raportate pentru regiunile Xist individuale, proteinele asociate Xist(a) și Xist(F) au fost îmbogățite pentru RBPs implicate în procesarea ARN, în timp ce regiunea c – repeat a interacționat preferențial cu proteinele de legare a ADN implicate în reglarea transcripțională (Fig suplimentar. 3e, f). În acord cu analiza GO, analiza domeniului proteic a demonstrat că proteinele care interacționează cu Xist(A) au fost îmbogățite pentru domeniile proteice SPOC (spen paralog și ortholog C-terminal) și RRM, proteinele care interacționează cu Xist(F) au fost îmbogățite pentru domeniul RRM, iar proteinele care interacționează cu Xist(C) nu au prezentat o îmbogățire specială (Fig. 4f; date suplimentare 3), evidențiind în continuare specificitatea seturilor de proteine identificate prin amprentă pentru fiecare regiune Xist. În rezumat, incPRINT a recuperat cu succes interacțiunile cunoscute Xist-proteine și a descoperit noi RBP-uri. Prin identificarea seturilor specifice de proteine care interacționează cu regiunile individuale conservate ale unui lncRNA modular, am demonstrat că incPRINT permite atribuirea specifică regiunii interacțiunilor ARN-proteină.
incPRINT identifică interacțiunile funcționale ARN–proteină
deoarece Xist are o funcție celulară bine caracterizată în reducerea la tăcere a genelor în timpul XCI, am încercat să testăm dacă unele dintre interacțiunile Xist-proteină descoperite folosind incPRINT sunt relevante din punct de vedere funcțional. Accentul a fost pus pe proteina ZZZ3, care interacționează cu toate cele trei regiuni Xist testate și RBM6, care prezintă o legare mai specifică la regiunile Xist(a) și Xist(F) (Fig. 4e). În primul rând, am confirmat interacțiunea Xist cu RBM6 și ZZZ3 în condiții endogene prin testarea co-precipitării Xist cu ambele proteine în celulele stem embrionare de șoarece. Proteinele au fost etichetate HA în linia celulară polimorfă TX1072 ES care permite expresia Xist indusă de doxiciclină,declanșând XCI în absența diferențierii31,37,38, 39. Imunoprecipitarea ARN (RIP) după inducerea doxiciclinei Xist și reticularea UV a celulelor urmată de analizele qRT-PCR a identificat o îmbogățire semnificativă a transcrierii Xist cu proteine RBM6 și ZZZ3, confirmând interacțiunea lor in vivo (Fig. 5a, b). În special, incPRINT a identificat, de asemenea, RBM6 ca interacționând cu Firre. RIP qRT-PCR a detectat o interacțiune specifică a Firre cu RBM6, dar nu cu ZZZ3, confirmând astfel legarea Firre-RBM6 în condiții endogene și validând în continuare rezultatele incPRINT (Fig. 5a, b).
apoi, pentru a testa dacă RBM6 și ZZZ3 au un impact asupra XCI, am folosit hibridizarea in situ fluorescentă cu ARN unicelular (pește ARN) pentru a evalua expresia Lamp2 endogen, o genă legată de X care este în mod normal tăcută în timpul inițierii XCI40. La expresia Xist indusă de doxiciclină, epuizarea Rbm6, Zzz3 și controlul pozitiv Spen (Fig suplimentar. 4a, b) a condus la reducerea tăcerii Lampei2, în timp ce expresia mono-alelică indusă de XCI a rămas neschimbată la epuizarea Thap7, care nu a interacționat cu Xist și a fost utilizată ca control negativ (Fig. 5c, d; suplimentar Fig. 4c; tabelul suplimentar 2). În absența Xist (-condiții de doxiciclină), expresia Lamp2 a rămas neschimbată la epuizarea proteinelor de mai sus (suplimentar Fig. 4D; tabelul suplimentar 2). Important, defectele de reducere a zgomotului cromozomului X nu au fost declanșate de expresia modificată a Xist/Tsix la epuizarea proteinelor individuale (Fig suplimentar. 4e). Pe scurt, identificarea interacțiunilor importante din punct de vedere funcțional dintre RBP-urile identificate prin incPRINT demonstrează potențialul de descoperire al incPRINT.