A Katalitikus Oldal Atlas 2.0: katalogizálás katalitikus oldalak maradékok meghatározott enzimek

Absztrakt

a Megértés, amely a katalitikus maradékok egy enzim, illetve milyen funkciót látnak el fontos, hogy sok biológia tanulmányok, különösen a vezető új therapeutics, valamint enzim design. A katalitikus hely Atlasz (csa) eredeti változata (http://www.ebi.ac.uk/thornton-srv/databases/CSA) 2004-ben jelent meg, amely katalogizálja az enzimkatalízisben részt vevő maradványokat a kísérletileg meghatározott fehérjeszerkezetekben, csak 177 kurált bejegyzést tartalmazott, és egyszerűsített megközelítést alkalmazott ezeknek a kommentároknak a homológ enzimszerkezetekre történő kiterjesztésére. Itt bemutatjuk a CSA új verzióját (CSA 2.0), amely nagymértékben kibővíti mind a kurált (968), mind az automatikusan annotált katalitikus helyek számát az enzimstruktúrákban, új módszert alkalmazva az annotáció átvitelére. A kurált bejegyzéseket a szekvencia-összehasonlításból származó maradéktípus változásával együtt használják a katalitikus helyek 3D sablonjainak előállításához, amelyek viszont felhasználhatók katalitikus helyek megtalálására új struktúrákban. A CSA annotációk más erőforrásokra történő átvitelének megkönnyítése érdekében egy új ontológiát fejlesztettek ki: az Enzimmechanizmus ontológia, amely lehetővé tette az annotációk átvitelét az enzimek mechanizmusára, Annotációjára és osztályozására (Macie) és az UniProt Tudásbázis (UniProtKB) erőforrásokra. A CSA adatbázis sémát újratervezték, és mind a CSA adatok, mind a keresési képességek egy új, modern webes felületen kerülnek bemutatásra.

bevezetés

az enzimek a források, például az UniProt Tudásbázis (UniProtKB) által katalogizált összes Genom kollektív fehérjetermékeinek 45% – át képviselik (1). Biológiai katalizátorként elősegítik a sok anyagcsere-folyamatot és útvonalat, amelyek kritikusak az élet létezéséhez, és több mint 100 éve a biológusok és vegyészek tanulmányainak középpontjában állnak. Ezek a gyógyszerészeti gyógyszerfejlesztés egyik fő célpontja is, számos jóváhagyott gyógyszer hat a betegség folyamataiban szerepet játszó enzimek hatásának módosítására. Ezenkívül gyakran a biotechnológiai alkalmazások fókuszpontjai. A katalitikus maradékanyagokra és enzim aktív helyekre vonatkozó részletes információk elengedhetetlenek a fehérje szerkezete és funkciói, az inhibitorok kialakítása és az enzimtervezés közötti kapcsolat megértéséhez.

a katalitikus hely atlaszt (CSA) (2) azért hozták létre, hogy kurátoros jegyzeteket szolgáltasson azon kis számú erősen konzervált szermaradékról, amelyek közvetlenül részt vesznek a katalitikus aktivitás megkezdésében azokban az enzimekben, amelyek szerkezete lerakódott a fehérje adatbankban (PDB) (3). Ezek a kurált bejegyzések viszont felhasználhatók más enzimszerkezetek katalitikus maradékainak homológián keresztüli következtetésére, egyszerű PSIBlast módszerrel.

az eredeti forrás 177 kézzel jegyzetelt bejegyzést és 2608 homológ bejegyzést tartalmazott, és az EK-számok 30% – át lefedte. Itt bemutatjuk az Atlas katalitikus hely új verzióját-CSA 2.0. Jelentősen megnöveltük a kurált bejegyzések számát 968-ra, és egy új, kifinomultabb módszert vezettünk be a kommentárok homológ struktúrákba történő átvitelére, növelve az annotációs transzfer robusztusságát. A kurált bejegyzések bővítése új 3D szerkezeti sablonok hozzáadását is lehetővé teszi, amelyeket a katalitikus Webhelykeresési szolgáltatás felülvizsgálatához használtak. Ezenkívül az adatbázis-sémát újratervezték, integrálva azt az enzimmechanizmusok testvéradatbázisába: a mechanizmus, annotáció és osztályozás az enzimek (Macie) adatbázisában (4). Kifejlesztettünk egy új ontológiát, az Enzimmechanizmus ontológiát (Emo), amely lehetővé teszi a CSA információk integrálását mind a MACiE, mind az UniProtKB adatstruktúrákba, és ellenőrzött szókincsként használható a fehérje szekvencia és szerkezet aspektusainak leírására kémiai és mechanisztikus kifejezésekkel az erőforrások között.

CSA-tartalom

a CSA-ban tárolt alapvető adatok a kísérletileg meghatározott atomszerkezetekből származó fehérjemaradványok, amelyeket katalitikusnak definiálunk. A maradékanyagok katalitikusnak minősülnek az alábbi kritériumok bármelyikének teljesítésével: (i) közvetlen részvétel a katalitikus mechanizmusban; (ii) megváltoztatja a katalitikus mechanizmusban közvetlenül részt vevő másik maradék vagy vízmolekula pKA-ját; (iii) átmeneti állapot vagy köztitermék stabilizálása; és (iv) szubsztrát aktiválása. Ne feledje, hogy nem tartalmazza azokat a maradékanyagokat, amelyek kizárólag a ligandumkötésben vesznek részt, és így különböznek más forrásoktól, például az UniProtKB-megjegyzésektől. A bejegyzéseket a letétbe helyezett EKT struktúrával kapcsolatban végezzük, azzal a lehetőséggel, hogy egyetlen bejegyzésen belül sok katalitikus hely legyen.

a katalitikus maradék kommentárokat kézi kurálással vagy szekvencia-összehasonlítással készítik. A kézzel jegyzetelendő bejegyzéseket a szerkezet minősége és a katalizált reakcióról rendelkezésre álló kísérleti bizonyítékok alapján választják ki az EKT-ből. Ez magában foglalja a katalitikus mechanizmus részleteit, lehetőség szerint kísérleti adatokkal is validálva. Az annotátorok az enzim rövid, szabad szöveges leírását, valamint az enzim mechanizmusának részletesebb összefoglalását tartalmazzák. Magát a reakciót is bemutatjuk és jelöljük, hogy bemutassuk a molekuláris alstruktúrák változásait és a kötési sorrend / vegyérték változásait egy kis molekulájú szubgráf detektorban (SMSD) megvalósított atom–atom illesztési algoritmus segítségével (5). Az egyes katalitikus helyeken található minden egyes szermaradékra fel kell jegyezni a szermaradék funkcionális részét, valamint le kell írni annak funkcióját és célját egy ellenőrzött szókincs és egy rövid, szabad szöveges leírás segítségével arról, hogy a szermaradék hogyan végzi a funkciót. A bizonyítékcímkék közvetlen kapcsolatot biztosítanak az irodalommal, amelyből a kommentárok származnak. Minden katalitikus helyre keresést lehet végezni, visszaadva a CSA összes többi katalitikus helyét, amelyeknek ugyanazok a katalitikus maradékai vannak csoportosítva E. C. számok. Ezenkívül a külső erőforrásokra, például a PDBSum (6) és az IntEnz (7) hivatkozásokra mutató hiperhivatkozások is rendelkezésre állnak. Belső linkek készülnek olyan egyéb bejegyzésekre, amelyek azonos E. C. számmal (8) vagy sorozatcsatlakozási számmal vagy EKT azonosítóval rendelkeznek. Az 1. ábra összefoglalja a bejegyzéshez bemutatott adattípusokat.

1.ábra.

a CSA által kurált bejegyzéshez bemutatott adatok áttekintése. A Meta-adatok leírói, mint például az enzim neve és a fajok, valamint a CSA azon bejegyzéseinek megkeresésére szolgáló belső linkek, amelyek megosztják a tulajdonságokat a külső webes erőforrásokra mutató linkekkel együtt, az (A) táblázatban láthatók. A 3D-s megjelenítő (B) megjeleníti az enzimszerkezetet, kiemelve az egyes katalitikus helyeket (egy legördülő menüből) piros színnel. A teljes reakcióról és mechanizmusról egy szabad szöveges jelentés található (C) egy reakciódiagrammal, amely a reakció során konzervált csoportokat és a kötésváltozásokat tartalmazza. D) Az egyes katalitikus helyeken található katalitikus maradékokra vonatkozó jegyzeteket mutatja.

1.ábra.

a CSA által kurált bejegyzéshez bemutatott adatok áttekintése. A Meta-adatok leírói, mint például az enzim neve és a fajok, valamint a CSA azon bejegyzéseinek megkeresésére szolgáló belső linkek, amelyek megosztják a tulajdonságokat a külső webes erőforrásokra mutató linkekkel együtt, az (A) táblázatban láthatók. A 3D-s megjelenítő (B) megjeleníti az enzimszerkezetet, kiemelve az egyes katalitikus helyeket (egy legördülő menüből) piros színnel. A teljes reakcióról és mechanizmusról egy szabad szöveges jelentés található (C) egy reakciódiagrammal, amely a reakció során konzervált csoportokat és a kötésváltozásokat tartalmazza. D) Az egyes katalitikus helyeken található katalitikus maradékokra vonatkozó jegyzeteket mutatja.

Az ismeretlen funkciójú fehérjék előrejelzésében részt vevő fejlesztők a kibővített számú kurált bejegyzést használhatják a kidolgozott módszertanok betanítására és tesztelésére. Ezenkívül az egyes felhasználók hozzáférhetnek mind a kurált, mind a homológiából származó bejegyzésekhez, hogy részleteket szerezzenek a katalitikus maradványokról egy érdekes struktúrában, amely hasznos lehet további kísérletek tervezésében. A felhasználói élményt a BioJS könyvtárak (9) segítségével javítottuk, amelyek 3D-s megtekintési panelt, valamint a katalitikus maradványokat kiemelő jelölt szekvencia-nézőt biztosítanak.

az erőforrások szélesebb körű integrációjának részeként a CSA-t egyesítették egy macie testvéradatbázissal. A CSA-val kapcsolatos táblázatok adatbázis-sémáját a 2.ábra mutatja. A CSA egy relációs adatbázis, amely egy tipikus Linux, Apache, MySQL és PHP platformot használ, JavaScript segítségével, a BioJS könyvtár felhasználásával.

2.ábra.

a CSA adatbázis sémája. A táblázatok közötti kapcsolatok jelennek meg. Az adatokat egy MySQL adatbázisban tárolják.

2.ábra.

a CSA adatbázis sémája. A táblázatok közötti kapcsolatok jelennek meg. Az adatokat egy MySQL adatbázisban tárolják.

katalitikus maradékok következtetése szekvencia-összehasonlítással

a bejegyzéseket egy automatizált szekvencia-összehasonlító módszerrel is feljegyezzük, amely a kurált bejegyzéseket használja a katalitikus maradékok következtetésére. A MACIE enzimmechanizmus adatbázisból származó 433 fehérjeszekvenciát és a CSA-ra jellemző 911 szekvenciát extraháltuk és címkéztük az oldallánc, a főlánc, a módosított, a reagens és a néző maradványainak megjegyzéseivel. Az előzetes költségvetés-tervezetben és az uniprotkb felülvizsgált szakaszában szereplő CSA homológokat SSEARCH36 (10) alkalmazásával azonosítottuk, statisztikai szignifikancia küszöbértékkel: e<10-6. Az SSEARCH igazítások a –V opcióval vetítették ki a macie/CSA szekvenciákból származó, annotált funkcionális maradékok azonossági/konzervatív/nem konzervatív státuszát az EKT és a SwissProt homológ szekvenciáira.

a homológia által levezetett bejegyzések a kurált bejegyzésekben található külső adatforrásokra mutató hivatkozások mellett tartalmaznak egy belső linket a manuálisan jegyzetelt bejegyzésekhez is, amelyeket a katalitikus maradványok következtetésére használtak. A CSA 2.0 968 enzimstruktúra és azok katalitikus helyeinek kézi kurátora, beleértve az egyes katalitikus maradékok funkcionális részéről és az enzimmechanizmusban betöltött szerepéről szóló információkat. A szekvencia-összehasonlítások alkalmazása kiterjeszti ezeket a kommentárokat további 32 216 homológiával annotált struktúrára, összesen 34 096 annotált struktúrát biztosítva az EKT-ben lerakódott lehetséges 49 049 enzimatikus struktúrából. Ez nagymértékben kiterjeszti a 177 kurátora bejegyzések és 2608 bejegyzéseket kommentálta homology CSA 1.0. Ezenkívül a CSA 2.0 bejegyzéseket tartalmaz az 1189 EC számokra, amelyek lefedik az összes EC osztályozási osztályt és alosztályt, valamint a legtöbb alosztályt (3.ábra).

3.ábra.

E. C. lefedettség a CSA-ban. Az enzim Bizottság osztályozása minden E.C. kódok által osztályozott enzim Bizottság tette, mint egy gyökeres fa. Minden nagyobb osztályt (I) Oxidoreduktázok, (ii) transzferázok, (iii) hidrolázok, (iv) Liázok, (v) Izomerázok és (vi) Ligázok jelölnek. A CSA-ban minden EC-szám piros színű, az összes főbb osztály és alosztály jelen van, és a legtöbb alosztály.

3.ábra.

E. C. lefedettség a CSA-ban. Az enzim Bizottság osztályozása az összes EC kódok által besorolt enzim Bizottság tette, mint egy gyökeres fa. Minden nagyobb osztályt (I) Oxidoreduktázok, (ii) transzferázok, (iii) hidrolázok, (iv) Liázok, (v) Izomerázok és (vi) Ligázok jelölnek. A CSA-ban minden EC-szám piros színű, az összes főbb osztály és alosztály jelen van, és a legtöbb alosztály.

ENZIMMECHANIZMUS ontológia

bár a CSA és a MACiE erőforrásokat kissé párhuzamosan fejlesztették ki, és így közös adatmodellt osztanak meg, jelenleg kihívást jelent ezeket összekapcsolni az olyan források enzim annotációival, mint az UniProtKB, az enzim tulajdonságainak meghatározása és a leírásukban használt szókincsek különbségei miatt. Bár a három adatbázisban tárolt információk egy részének leírása és meghatározása a meglévő ontológiákban történik, mint például a GO (11) és a ChEBI (12) ontológia, ezek összevonása és egységes alkalmazása mindhárom adatbázisban messze nem bizonyult triviálisnak.

a CSA és testvéradatbázisa, a MACiE ellenőrzött szókincset használ, a macie részletesebb szókincsével rendelkezik, mivel sokkal mélyebben összpontosít az enzimekre, hogy tartalmazza az elvégzett kémiai reakció lépéseinek alapos leírását. Hasonlóképpen, az uniprotkb (UniProtKB/Swiss-Prot) felülvizsgált szakasza az enzimekkel kapcsolatos adatokat szélesebb fehérjeszekvencia-szinten is rögzíti, beleértve a katalitikus maradékokra vonatkozó információkat is. A kommentárok mind szabad szövegként, mind önállóan kifejlesztett, ellenőrzött szókincs felhasználásával készülnek.

ennek érdekében kifejlesztettük az EMO-t, amely a macie és a CSA számára kifejlesztett ellenőrzött szókincsre épül, és az OBO Öntödébe kerül (13). Ezt a szókincset (lásd Kiegészítő anyag vagy http://purl.bioontology.org/ontology/EMO) az enzim reakcióinak aktív összetevőinek (kofaktorok, aminosavak és rokon ligandumok) és a reakcióban betöltött szerepük leírására hozták létre. Az EMO erre épít azáltal, hogy formalizálja a kulcsfontosságú fogalmakat és a köztük lévő kapcsolatokat, amelyek szükségesek az enzimek és funkcióik meghatározásához. Ez nemcsak az enzim általános jellemzőit írja le, beleértve az EC számot (katalitikus aktivitás), a 3D struktúrát és a sejthelyeket, hanem lehetővé teszi a mechanizmus részletes megjegyzését is. Ez a mechanisztikus részlet lehet bruttó szinten (a teljes reakció csak a CSA-ban rögzített), vagy a teljes kémiai átalakulás végrehajtásához szükséges lépések és komponensek részletesebb szemcsézettsége.

Az EMO lehetővé teszi, hogy sok különböző erőforrást össze lehessen vonni, még akkor is, ha a kommentárok csak részben készülnek, ami lehetővé teheti a hiányos kommentár kibővítését. Az adatbázisok közötti kommunikáció megkönnyíthető egy olyan univerzális erőforrás használatával, amely az eltérő kifejezéseket egy közös adatmodellre térképezi fel. A CSA által kurált bejegyzések összes kommentárját beépítették az UniProtKB által biztosított kommentárokba.

3D sablonok létrehozása

Az újonnan kurált bejegyzések segítségével háromdimenziós sablonok készíthetők, amelyek csak az aktív helymaradványok néhány atomjából állnak. A sablonban lévő katalitikus maradékokra vonatkozóan alternatív szermaradéktípusok katalogizálhatók a sablonban a homológia által levezetett bejegyzések egyenértékű pozícióiból. Ez kiterjeszti a CSA 1.0-ból épített 149 sablonkészletet összesen 584 sablonra a CSA 2.0-ból. A sablonokat a Jess, egy gyors és rugalmas algoritmus használhatja az atomok kis csoportjainak fehérjeszerkezeteinek geometriai és kémiai korlátok alapján történő keresésére (14), hogy új struktúrákon keresztül keressen potenciális katalitikus helyeket. Ezt egy új szerver CSS-ben valósították meg (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Ennek az aszinkron szolgáltatásnak a felhasználói feltölthetik saját struktúrafájljukat, vagy kérhetnek egy letétbe helyezett struktúrát (ha azt a CSA még nem kommentálta) az új sablonok használatával. Az eredményeket az RMSD és a log E-érték alapján rangsoroljuk. Az egyes kurált bejegyzésekből készült sablon elérhető a releváns CSA belépési oldalról,valamint együttesen letölthető.

következtetések

a CSA 2.0 új, modern interfészt biztosít az enzim katalitikus helyeiben részt vevő maradékok és a reakcióban betöltött funkcionális szerepük sokkal hosszabb, manuálisan kurált adatkészletéhez. Új módszert vezettek be az annotációk megbízható extrapolálására és a katalitikus maradékok homológ szerkezetekre történő azonosítására. Ezenkívül a kurált bejegyzések felhasználhatók a katalitikus helyek 3D sablonjainak felépítésére, amelyek viszont felhasználhatók új struktúrák keresésére a katalitikus helyek azonosítására egy felülvizsgált CSS szolgáltatás segítségével. Ezenkívül egy új ontológiát fejlesztettek ki, amely lehetővé teszi az enzimkatalízissel kapcsolatos megjegyzések átadását az erőforrások között. Ezt használták a CSA annotációk beillesztésére az UniProtKB – ba és a MACiE-be.

az adatbázis a http://www.ebi.ac.uk/thornton-srv/databases/CSAcímen érhető el, míg a CSS szolgáltatás a http://www.ebi.ac.uk/thornton-srv/databases/CSS címen található. Mindkettő kompatibilis a legtöbb modern böngészővel. A CSA összes adata letölthető és szabadon elérhető az akadémiai közösség számára.

finanszírozás

összeférhetetlenségi nyilatkozat. Nincs bejelentett.

köszönetnyilvánítás

a szerzők szeretnék megköszönni a sok kommentátor erőfeszítéseit, akik hozzájárultak a CSA kurátori bejegyzéseihez. Szeretnénk köszönetet mondani Dr. Syed A. Rahmannak a megjelölt reakciódiagramok ellátásáért.

1

Uniprot konzorcium
frissítés a tevékenységek a Universal Protein Resource (UniProt) 2013-ban

,

nukleinsavak res.

,

2013

, vol.

41

(pg.

D43

D47

)

2

Porter
CT

,

artlett
GJ

,

Thornton
JM

.

a katalitikus hely atlasza: az enzimekben azonosított katalitikus helyek és maradékok forrása szerkezeti adatok felhasználásával

,

nukleinsavak res.

,

2004

, vol.

32

(pg.

D129

D133

)

3

Velankar
S

,

alhroub
y

,

legjobb
C

,

Caboche
s

,

Conroy
MJ

,

Dana
JM

,

Fernandez montecelo
matt

,

van Ginkel
g

,

Golovin
a

,

Gore
SP

, et al.

PDBe: Fehérje Adatbank Európában

,

nukleinsavak res.

,

2012

, vol.

40

(pg.

D445

D452

)

4

Holliday
GL

,

Andreini
C

,

Fischer
JD

,

ritkán
ez

,

Almonacid
kettő

,

Williams
St

,

Pearson
WR

.

macie: a biokémiai reakciók sokféleségének feltárása

,

nukleinsavak res.

,

2012

, vol.

40

(pg.

D783

D789

)

5

ritkán
s

,

Bashton
M

,

Holliday
g

,

Schrader
r

,

Thornton
j

.

kis molekulájú Részgráf detektor (SMSD) eszközkészlet

,

J. Cheminform.

,

2009

, vol.

1

pg.

12

6

Laskowski
ritka

.

PDBsum Új dolgok

,

nukleinsavak res.

,

2009

, vol.

37

(pg.

D355

D359

)

7

Fleischmann
a

,

darsow
m

,

degtyarenko
k

,

Fleischmann
te

,

Boyce
s

,

div> Axelsen
kb

,

bairoch
a

,

Schomburg
d

,

Tipton
NF

,

Apweiler
r

.

IntEnz, az integrált relációs enzim adatbázis

,

nukleinsavak res.

,

2004

, vol.

32

(pg.

D434

D437

)

8

nemzetközi biokémiai és Molekuláris Biológiai Unió, nómenklatúra,C. és Webb,E. C. (1992) Enzimnómenklatúra 1992 : a nómenklatúra Bizottság ajánlásai az International Union of Biochemistry and molecular biology on the nómenklatúra és osztályozása enzimek / készített nc-iubmb Edwin C. Webb. Megjelent az International Union of Biochemistry and Molecular Biology által Academic Press, San Diego
9

Gomez
J

,

Garcia
LJ

div>,

Salazar
ga

,

villaveces
J

,

gore
s

,

arcia
a

,

Martin
MJ

,

Launay
g

,

Alcantara
r

,

Del-Toro
N

, et al.

BioJS: nyílt forráskódú JavaScript keretrendszer a biológiai adatok vizualizálásához

,

bioinformatika

,

2013

, vol.

29

(pg.

1103

1104

)

10

Sierk
ML

,

earson

/div>

WR

.

érzékenység és szelektivitás a fehérje szerkezetének összehasonlításában

,

Protein Sci.

,

2004

, vol.

13

(pg.

773

785

)

11

Blake
JA

,

Dolan
m

,

drabkin
h

,

Hill
DP

,

it
n

,

Sitnikov
d

,

hidak
s

,

Burgess
s

,

Buza
t

,

McCarthy
> F

, et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

,

de Matos
p

,

Dekker
a

,

Ennis
m

,

Harsha
B

,

Peel
N

,

Muthukrishnan
v

,

Owen
g

,

Turner
s

,

illiams
M

, et al.

a Chebi referencia adatbázis és ontológia a biológiailag releváns kémia számára: fejlesztések 2013-ra

,

nukleinsavak res.

,

2013

, vol.

41

(pg.

D456

D463

)

13

Smith
B

,

Ashburner
m

,

Rosse
C

,

bárd
j

,

bug
te

,

ceusters
you

,

Goldberg
lj

,

eilbeck
k

,

Írország
a

,

mungall
CJ

, et al.

az OBO öntöde: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

szerzői megjegyzések

jelenlegi címek: Gemma L. Holiday, Kaliforniai Egyetem, San Francisco, Box 2550, 1700 4.utca, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Intézet, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1sd, Egyesült Királyság.

Vélemény, hozzászólás?

Az e-mail-címet nem tesszük közzé.