situsul catalitic Atlas 2.0: catalogarea situsurilor catalitice și a reziduurilor identificate în enzime

rezumat

înțelegerea reziduurilor catalitice dintr-o enzimă și a funcției pe care o îndeplinesc este crucială pentru multe studii de biologie, în special pentru cele care conduc la noi terapii și la proiectarea enzimelor. Versiunea originală a site-ului catalitic Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) publicată în 2004, care cataloga reziduurile implicate în cataliza enzimatică în structurile proteice determinate experimental, a avut doar 177 de intrări curate și a folosit o abordare simplistă pentru extinderea acestor adnotări la structuri enzimatice omoloage. Aici prezentăm o nouă versiune a CSA (CSA 2.0), care extinde foarte mult numărul de site-uri catalitice atât curate (968), cât și adnotate automat în structurile enzimatice, utilizând o nouă metodă de transfer de adnotare. Intrările curate sunt utilizate, împreună cu variația tipului de reziduuri din compararea secvenței, pentru a genera șabloane 3D ale siturilor catalitice, care la rândul lor pot fi utilizate pentru a găsi situri catalitice în structuri noi. Pentru a facilita transferul adnotărilor CSA către alte resurse a fost dezvoltată o nouă ontologie: ontologia mecanismului enzimatic, care a permis transferul adnotărilor către mecanismul, adnotarea și clasificarea în enzime (MACiE) și baza de cunoștințe UniProt (uniprotkb) resurse. Schema bazei de date CSA a fost reproiectată și atât datele CSA, cât și capacitățile de căutare sunt prezentate într-o nouă interfață web modernă.

introducere

enzimele reprezintă 45% din produsele proteice colective ale tuturor genomurilor catalogate prin resurse precum baza de cunoștințe UniProt (UniProtKB) (1). Ca catalizatori biologici, acestea facilitează numeroasele procese și căi metabolice care sunt esențiale pentru existența vieții și au fost în centrul studiilor biologilor și chimiștilor de peste 100 de ani. Acestea sunt, de asemenea, unele dintre obiectivele principale în dezvoltarea medicamentelor farmaceutice, multe medicamente aprobate acționând pentru a modifica acțiunea enzimelor implicate în procesele bolii. În plus, acestea sunt adesea punctul focal pentru aplicațiile biotehnologice. Informații detaliate privind reziduurile catalitice și situsurile active enzimatice sunt esențiale pentru înțelegerea relației dintre structura și funcțiile proteinelor, proiectarea inhibitorilor și proiectarea enzimelor.

Atlasul situsului catalitic (CSA) (2) a fost creat pentru a furniza adnotări curate ale numărului mic de reziduuri foarte conservate care sunt direct implicate în desfășurarea activității catalitice în enzimele ale căror structuri au fost depozitate în Banca de date a proteinelor (PPB) (3). Aceste intrări curate pot fi, la rândul lor, utilizate pentru deducerea reziduurilor catalitice în alte structuri enzimatice prin omologie, folosind o metodă simplă PSIBlast.

resursa originală conținea 177 de intrări adnotate manual și 2608 intrări omoloage și acoperea 30% din totalul numerelor ce găsite în PPB. Vă prezentăm aici o nouă versiune a site-ului catalitic Atlas-CSA 2.0. Am crescut semnificativ numărul de intrări curate la 968 și implementăm o nouă metodă mai sofisticată pentru transferul adnotărilor către structuri omoloage, sporind robustețea transferului de adnotări. Extinderea intrărilor curate permite, de asemenea, adăugarea de noi șabloane structurale 3d, care au fost utilizate într-o revizuire a serviciului de căutare catalitică a Site-ului. În plus, schema bazei de date a fost reproiectată, integrând-o într-o bază de date soră a mecanismelor enzimatice: mecanismul, adnotarea și clasificarea în baza de date enzime (MACiE) (4). Am dezvoltat, de asemenea, o nouă ontologie, ontologia mecanismului enzimatic (EMO), care permite integrarea informațiilor CSA atât în structurile de date MACiE, cât și în cele UniProtKB și poate fi utilizată ca un vocabular controlat pentru descrierea aspectelor secvenței și structurii proteinelor cu termeni chimici și mecanici între resurse.

conținut CSA

datele principale deținute în CSA sunt reziduurile de proteine din structurile atomice determinate experimental care sunt definite ca catalitice. Reziduurile sunt desemnate ca fiind catalitice prin îndeplinirea oricăruia dintre următoarele criterii: (i) implicarea directă în mecanismul catalitic; (ii) modifică pKA-ul unui alt reziduu sau moleculă de apă implicată direct în mecanismul catalitic; (iii) stabilizarea unei stări de tranziție sau intermediare; și (iv) activarea unui substrat. Rețineți că nu include reziduuri care sunt implicate exclusiv în legarea ligandului și, prin urmare, diferă de alte resurse, cum ar fi adnotările UniProtKB. Intrările sunt făcute cu privire la structura PDB depusă, cu potențialul de a avea multe situri catalitice într-o singură intrare.

adnotările catalitice ale reziduurilor se fac fie prin curație manuală, fie prin compararea secvențelor. Intrările care trebuie adnotate manual sunt alese din PPB pe baza calității structurii și a dovezilor experimentale disponibile ale reacției catalizate. Aceasta include detalii ale mecanismului catalitic, validate și prin date experimentale, acolo unde este posibil. Adnotatorii oferă o scurtă descriere în text liber a enzimei, precum și un rezumat mai detaliat al mecanismului enzimatic. Reacția în sine este, de asemenea, prezentată și marcată pentru a arăta modificările substructurilor moleculare și modificările ordinii/valenței legăturii folosind un algoritm de potrivire atom–atom implementat în detector de subgrafe cu molecule mici (SMSD) (5). Pentru fiecare reziduu din fiecare sit catalitic se înregistrează partea funcțională a reziduului, precum și funcția și ținta acestuia descrise folosind un vocabular controlat și o scurtă descriere în text liber a modului în care reziduul îndeplinește funcția. Etichetele de dovezi oferă o legătură directă cu literatura din care provin adnotările. Pentru fiecare sit catalitic se poate efectua o căutare returnând toate celelalte situsuri catalitice DIN CSA care au aceleași reziduuri catalitice grupate după numerele lor E. C. În plus, sunt furnizate hyperlink-uri către resurse externe, cum ar fi PDBSum (6) și intens (7). Se fac link-uri interne către alte intrări care au același număr E. C. (8) sau numere de accesare a secvenței sau identificatori PDB. Un rezumat al tipurilor de date prezentate pentru o intrare este prezentat în Figura 1.

Figura 1.

Prezentare generală a datelor prezentate pentru o intrare organizată de CSA. Descriptorii Meta-date, cum ar fi numele enzimei și speciile, precum și legăturile interne pentru a găsi intrări în CSA care partajează proprietăți împreună cu legăturile către resurse web externe sunt prezentate într-un tabel (A). Un vizualizator 3D (B) afișează structura enzimei, evidențiind fiecare dintre locurile catalitice (dintr-un meniu derulant) în roșu. Un raport cu text liber al reacției și mecanismului general este furnizat (C) cu o diagramă de reacție marcată cu grupuri conservate în timpul reacției și modificărilor legăturii. (D) prezintă adnotările deținute pentru fiecare reziduu catalitic din fiecare sit catalitic.

Figura 1.

Prezentare generală a datelor prezentate pentru o intrare organizată de CSA. Descriptorii Meta-date, cum ar fi numele enzimei și speciile, precum și legăturile interne pentru a găsi intrări în CSA care partajează proprietăți împreună cu legăturile către resurse web externe sunt prezentate într-un tabel (A). Un vizualizator 3D (B) afișează structura enzimei, evidențiind fiecare dintre locurile catalitice (dintr-un meniu derulant) în roșu. Un raport cu text liber al reacției și mecanismului general este furnizat (C) cu o diagramă de reacție marcată cu grupuri conservate în timpul reacției și modificărilor legăturii. (D) prezintă adnotările deținute pentru fiecare reziduu catalitic din fiecare sit catalitic.

dezvoltatorii implicați în predicția proteinelor cu funcție necunoscută pot utiliza numărul extins de intrări curate pentru a instrui și testa metodologiile dezvoltate. În plus, utilizatorii individuali pot accesa atât intrări curate, cât și intrări derivate din omologie pentru a obține detalii despre reziduurile catalitice într-o structură de interes, care are potențialul de a fi utilă în proiectarea experimentelor ulterioare. Experiența utilizatorului a fost îmbunătățită folosind bibliotecile BioJS (9) care oferă un panou de vizualizare 3D, precum și un vizualizator de secvențe marcat care evidențiază reziduurile catalitice.

ca parte a unei integrări mai largi a resurselor, CSA a fost fuzionată cu o bază de date soră MACiE. Schema bazei de date pentru tabelele legate de CSA este prezentată în Figura 2. CSA este conceput ca o bază de date relațională folosind o platformă tipică Linux, Apache, MySQL și PHP ajutată de JavaScript utilizând biblioteca BioJS.

Figura 2.

schema bazei de date pentru CSA. Relațiile dintre tabele sunt afișate. Datele sunt stocate într-o bază de date MySQL.

Figura 2.

schema bazei de date pentru CSA. Relațiile dintre tabele sunt afișate. Datele sunt stocate într-o bază de date MySQL.

deducerea reziduurilor catalitice prin compararea secvențelor

intrările sunt, de asemenea, adnotate folosind o metodă automată de comparare a secvențelor care utilizează intrările curate pentru a deduce reziduurile catalitice. 433 de secvențe de proteine din Baza de date a mecanismului enzimei MACIE și cele 911 secvențe unice pentru CSA au fost extrase și etichetate folosind adnotări pentru reziduuri cu lanț lateral, lanț principal, modificat, reactant și spectator. Omologii CSA din PDB și secțiunea revizuită a UniProtKB au fost identificați folosind SSEARCH36 (10) cu un prag de semnificație statistică de e<10-6. Aliniamentele SSEARCH au folosit opțiunea –V pentru a proiecta statutul de identitate/conservator/neconservator al reziduurilor funcționale adnotate aliniate de la secvențele MACiE/CSA la secvențele omoloage din PDB și SwissProt.

intrările derivate prin omologie, pe lângă legăturile către surse de date externe găsite în intrările curate, au și o legătură internă către intrările adnotate manual care a fost utilizată pentru a deduce reziduurile catalitice. CSA 2.0 oferă o resursă curată manual de 968 de structuri enzimatice și situsurile lor catalitice, inclusiv informații despre partea funcțională a fiecărui reziduu catalitic și rolul său în mecanismul enzimatic. Utilizarea comparațiilor de secvențe extinde aceste adnotări la alte 32 216 structuri adnotate prin omologie, oferind un total de 34 096 structuri adnotate din 49 049 structuri posibile depuse în PDB care sunt enzimatice. Acest lucru extinde foarte mult cele 177 de intrări curate și 2608 de intrări adnotate prin omologie în CSA 1.0. În plus, CSA 2.0 are intrări pentru 1189 numere E. C. care acoperă toate clasele și subclasele de clasificare E. C. și majoritatea subclaselor (Figura 3).

Figura 3.

E. C. acoperire în CSA. Clasificarea Comisiei enzimatice a tuturor E.C. codurile clasificate de Comisia enzimă prestate ca un copac înrădăcinat. Fiecare clasă majoră este marcată cu (i) Oxidoreductaze, (ii) transferaze, (iii) hidrolaze, (iv) Liaze, (v) Izomeraze și (vi) ligaze. Fiecare număr E. C. DIN CSA este colorat în roșu, cu toate clasele și subclasele majore prezente și majoritatea subclaselor.

Figura 3.

E. C. acoperire în CSA. Clasificarea Comisiei enzimatice a tuturor codurilor E. C. clasificate de Comisia enzimatică redate ca un copac înrădăcinat. Fiecare clasă majoră este marcată cu (i) Oxidoreductaze, (ii) transferaze, (iii) hidrolaze, (iv) Liaze, (v) Izomeraze și (vi) ligaze. Fiecare număr E. C. DIN CSA este colorat în roșu, cu toate clasele și subclasele majore prezente și majoritatea subclaselor.

ontologia mecanismului enzimatic

deși resursele CSA și MACiE au fost dezvoltate oarecum în tandem și astfel împărtășesc un model de date comun, în prezent este dificil să le legăm de adnotările enzimatice din resurse precum UniProtKB datorită diferențelor în definițiile proprietăților enzimatice și vocabularele utilizate în descrierea lor. Deși descrierile și definițiile unora dintre informațiile deținute în toate cele trei baze de date sunt făcute în ontologii existente, cum ar fi Go (11) și chebi (12) ontologie, căsătoria acestora și aplicarea lor uniformă la toate cele trei baze de date s-a dovedit departe de a fi banală.CSA și baza sa de date soră, MACiE, utilizează un vocabular controlat, MACiE posedând un vocabular mai detaliat, deoarece se concentrează pe enzime într-o profunzime mult mai mare pentru a include descrieri amănunțite ale etapelor de reacție chimică efectuate. De asemenea, secțiunea revizuită a uniprotkb (Uniprotkb/Swiss-Prot) captează, de asemenea, date legate de enzime la un nivel mai larg de secvență de proteine, inclusiv informații despre reziduurile catalitice. Adnotările sunt făcute atât ca text liber, cât și folosind un vocabular controlat dezvoltat independent.

pentru a aborda acest lucru, am dezvoltat EMO care se bazează pe vocabularul controlat dezvoltat pentru MACiE și CSA și va fi trimis la turnătoria OBO (13). Acest vocabular (vezi material suplimentar sauhttp://purl.bioontology.org/ontology/EMO) a fost creat pentru a descrie componentele active ale reacțiilor enzimei (cofactori, aminoacizi și liganzi înrudiți) și rolurile lor în reacție. EMO se bazează pe aceasta prin formalizarea conceptelor cheie și a relațiilor dintre ele, necesare pentru a defini enzimele și funcțiile lor. Aceasta descrie nu numai caracteristicile generale ale unei enzime, inclusiv numărul E. C. (activitate catalitică), structura 3D și locațiile celulare, dar permite și adnotarea detaliată a mecanismului. Acest detaliu mecanicist poate fi fie la un nivel brut (reacție generală numai așa cum este capturat în CSA), fie granularitatea mai detaliată a etapelor și componentelor necesare pentru a efectua transformarea chimică generală.

EMO permite ca multe resurse diferite să fie trase împreună, chiar și acolo unde adnotările sunt făcute doar parțial, ceea ce ar putea permite extinderea adnotării incomplete. Comunicarea între bazele de date poate fi facilitată prin utilizarea unei astfel de resurse universale care mapează termeni disparați la un model comun de date. Toate adnotările intrărilor organizate de CSA au fost integrate în adnotările furnizate în UniProtKB.

generarea de șabloane 3D

folosind intrările nou întreținute este posibil să se construiască șabloane tridimensionale constând din doar câțiva atomi ai reziduurilor sitului activ. Tipurile alternative de reziduuri pentru fiecare reziduu catalitic din șablon pot fi catalogate în șablon din pozițiile echivalente din intrările derivate prin omologie. Aceasta extinde un set de 149 de șabloane construite din CSA 1.0 la un total de 584 de șabloane DIN CSA 2.0. Șabloanele pot fi utilizate de Jess, un algoritm rapid și flexibil pentru căutarea structurilor proteice pentru grupuri mici de atomi bazate pe constrângeri geometrice și chimice (14), pentru a căuta prin noi structuri pentru a găsi potențiale site-uri catalitice. Acest lucru a fost implementat într-un nou server CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Utilizatorii acestui serviciu asincron pot încărca propriul fișier de structură sau pot solicita o structură depusă (dacă nu a fost deja adnotată de CSA) pentru a fi căutată folosind noile șabloane. Rezultatele sunt clasificate pe baza RMSD și un jurnal e-valoare. Șablonul realizat din fiecare intrare curată poate fi accesat din pagina relevantă de intrare CSA, precum și în mod colectiv disponibil pentru descărcare.

concluzii

CSA 2.0 oferă o nouă interfață modernă pentru un set de date manual mult extins de reziduuri implicate în situsurile catalitice enzimatice și rolul funcțional pe care îl joacă în reacție. A fost implementată o nouă metodă pentru extrapolarea fiabilă a adnotărilor și identificarea reziduurilor catalitice la structuri omoloage. În plus, intrările curate pot fi utilizate pentru a construi șabloane 3D ale site-urilor catalitice, care la rândul lor pot fi utilizate pentru a căuta noi structuri pentru identificarea site-ului catalitic folosind un serviciu CSS revizuit. În plus, a fost dezvoltată o nouă ontologie pentru a permite transferul adnotărilor referitoare la cataliza enzimatică între resurse. Acest lucru a fost folosit pentru a include adnotări CSA în Uniprotkb și MACiE.

baza de date este disponibilă lahttp://www.ebi.ac.uk/thornton-srv/databases/CSA, în timp ce serviciul CSS poate fi găsit lahttp://www.ebi.ac.uk/thornton-srv/databases/CSS. Ambele sunt compatibile cu majoritatea browserelor web moderne. Toate datele din CSA pot fi descărcate și disponibile gratuit comunității academice.

finanțare

Declarație privind conflictul de interese. Nici unul declarat.

mulțumiri

autorii ar dori să mulțumească eforturilor multor adnotatori care au contribuit la intrările curate în CSA. Am dori, de asemenea, să-i mulțumim Dr.Syed A. Rahman pentru furnizarea diagramelor de reacție marcate.

1

Consorțiul Uniprot
actualizare privind activitățile la resursa proteică universală (Uniprot) în 2013

,

acizi nucleici Res.

,

2013

, vol.

41

(pag.

D43

D47

)

2

Porter
CT

,

Bartlett
GJ

,

Thornton
JM

.

Atlasul situsului catalitic: o resursă de situsuri catalitice și reziduuri identificate în enzime folosind date structurale

,

acizi nucleici Res.

,

2004

, vol.

32

(pag.

D129

D133

)

3

Velankar
S

,

alhroub
y

,

cel mai bun
c

,

caboche
s

,

Conroy
MJ

,

Dana
JM

,

Fernandez montecelo
matte

,

van Ginkel
g

,

Golovin
a

,

Gore
SP

, și colab.

PDBe: Banca de date a proteinelor în Europa

,

acizi nucleici Res.

,

2012

, vol.

40

(pag.

D445

D452

)

4

Holliday
GL

,

Andreini
c

,

Fischer
JD

,

rar
acest

,

Almonacid
două

,

Williams
St

,

Pearson
WR

.

MACiE: explorarea diversității reacțiilor biochimice

,

acizi nucleici Res.

,

2012

, vol.

40

(pag.

D783

D789

)

5

rar

S

,

Bashton
m

,

Holliday
g

,

Schrader
r

,

Thornton
J

.

mici molecule subgraf Detector (SMSD) toolkit

,

J. Cheminform.

,

2009

, vol.

1

pg.

12
6

Laskowski
RARE

.

PDBsum lucruri noi

,

acizi nucleici Res.

,

2009

, vol.

37

(pag.

D355

D359

)

7

Fleischmann
A

,

darsow
m

,

degtyarenko
k

,

Fleischmann
tu

,

Boyce
s

,

Axelsen
KB

,

bairoch
a

,

Schomburg
d

,

Tipton
NF

,

Apweiler
r

.

intens, baza de date integrată a enzimelor relaționale

,

acizi nucleici Res.

,

2004

, vol.

32

(pag.

D434

D437

)

8

Uniunea Internațională de Biochimie și Biologie Moleculară, nomenclatură,C. și Webb,E. C. (1992) Nomenclatura enzimatică 1992 : recomandări ale Comitetului de nomenclatură al Uniunea Internațională de Biochimie și Biologie Moleculară privind nomenclatura și clasificarea enzimelor / pregătit pentru NC-iubmb de Edwin C. Webb. Publicat pentru Uniunea Internațională de Biochimie si Biologie Moleculara de Academic Press, San Diego

9

Gomez
J

,

Garcia
LJ

,

Salazar
ga

,

villaveces
j

,

gore
s

,

Garcia
a

,

Martin
MJ

,

Launay
g

,

alcantara
r

,

Del-Toro
N

, și colab.

BioJS: un cadru JavaScript open source pentru vizualizarea datelor biologice

,

bioinformatică

,

2013

, vol.

29

(pag.

1103

1104

)

10

Sierk
ML

,

Pearson
WR

.

sensibilitate și selectivitate în compararea structurii proteinelor

,

Protein Sci.

,

2004

, vol.

13

(pag.

773

785

)

11

Blake

JA

,

Dolan
m

,

drabkin
h

,

Hill
DP

,

it
n

,

Sitnikov
d

,

poduri
s

,

Burgess
s

,

buza
t

,

McCarthy
f

, și colab.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

,

de Matos
p

,

Dekker
a

,

Ennis
m

,

Harsha
B

,

Peel
n

,

Muthukrishnan
v

,

Owen
g

,

Turner
s

,

Williams
m

, și colab.

baza de date de referință ChEBI și ontologia pentru Chimie relevantă din punct de vedere biologic: îmbunătățiri pentru 2013

,

acizi nucleici Res.

,

2013

, vol.

41

(pag.

D456

D463

)

13

Smith

B

,

Ashburner
m

,

rosse
c

,

Bard

,

bug
tu

,

ceusters
tu

,

Goldberg
LJ

,

eilbeck
k

,

Irlanda
a

,

mungall
CJ

, și colab.

Turnătoria OBO: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

Note autor

adrese prezente: Gemma L. Holiday, Universitatea din California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, Statele Unite ale Americii.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, MAREA BRITANIE.

Lasă un răspuns

Adresa ta de email nu va fi publicată.