Katalytické Místo Atlas 2.0: katalogizace katalytických míst a zbytků zjištěných v enzymy

Abstrakt

Porozumění, které jsou katalytické zbytky v enzymu, a to, co funkce vykonávají, je zásadní pro mnoho biologii studií, zvláště těch, které vedly k nové therapeutics a enzym design. Původní verze Katalytické Místo Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA), zveřejněné v roce 2004, což katalogy zbytky se podílejí enzymové katalýzy v experimentálně stanovena proteinových struktur, měl pouze 177 kurátor položky a zaměstnává zjednodušující přístup k rozšíření těchto popisů se homologní struktury enzymu. Zde představujeme novou verzi CSA (CSA 2.0), která výrazně rozšiřuje počet jak kurátorských (968), tak automaticky anotovaných katalytických míst v enzymových strukturách s využitím nové metody přenosu anotací. Kurátorské záznamy se používají, spolu s variací typu reziduí ze srovnání sekvencí, ke generování 3D šablon katalytických míst, což lze zase použít k nalezení katalytických míst v nových strukturách. Na zmírnění převod ČSA anotace dalších zdrojů, nové ontologie byl vyvinut: Enzym Mechanismus Ontologie, která umožnila převod anotací na Mechanismus, popis a Klasifikace Enzymů (MACiE) a UniProt Knowledge Base (UniProtKB) zdrojů. Schéma databáze ČSA bylo přepracováno a datové a vyhledávací funkce ČSA jsou prezentovány v novém moderním webovém rozhraní.

ÚVOD

Enzymy představují ∼45% kolektivní proteinové produkty všech genomů seřazené podle zdrojů jako UniProt Knowledge Base (UniProtKB) (1). Jako biologické katalyzátory usnadňují mnoho metabolických procesů a cest, které jsou kritické pro existenci života a byly předmětem studií biologů a chemiků již více než 100 let. Jsou také některé z hlavních cílů ve vývoji farmaceutických léčiv, s mnoha schválenými léky, které působí na modifikaci působení enzymů zapojených do chorobných procesů. Kromě toho jsou často ústředním bodem pro biotechnologické aplikace. Podrobné informace na katalytické zbytky a enzymů aktivních míst jsou nezbytné pro pochopení vztahu mezi proteinové struktury a funkce, design a enzymové inhibitory design.

Katalytické Místo Atlas (CSA) (2) byl zřízen za účelem poskytování kurátor anotace malý počet vysoce konzervované zbytky, které jsou přímo zapojeny do podniku katalytické aktivity enzymů, jejichž struktury byly uloženy v Protein Data Bank (PDB) (3). Tyto kurátorské záznamy mohou být zase použity pro odvození katalytických zbytků v jiných enzymových strukturách homologií pomocí jednoduché metody Psiblastů.

původní zdroj obsahoval 177 ručně anotovaných záznamů a 2608 homologních záznamů a pokrýval ∼30% všech čísel EC nalezených v PDB. Představujeme zde novou verzi katalytického webu Atlas-CSA 2.0. Významně jsme zvýšili počet kurátorských záznamů na 968 a implementovali jsme novou sofistikovanější metodu přenosu anotací do homologních struktur zvyšující robustnost přenosu anotací. Rozšíření kurátorských záznamů také umožňuje přidání nových 3D strukturních šablon, které byly použity při revizi služby katalytického vyhledávání stránek. Kromě toho bylo znovu navrženo schéma databáze, integrace do sesterské databáze enzymových mechanismů: mechanismus, anotace a klasifikace v databázi enzymů (MACiE) (4). Jsme také vyvinuli nové ontologie, Enzymu, Mechanismus Ontologie (EMO), umožňující integraci ČSA informace do obou MACiE a UniProtKB datové struktury a mohou být použity jako řízený slovník pro popis aspekty proteinové sekvence a struktury s chemii a mechanické podmínky v rámci zdroje.

obsah CSA

základní údaje uchovávané v CSA jsou proteinové zbytky z experimentálně stanovených atomových struktur, které jsou definovány jako katalytické. Zbytky jsou označeny jako katalyzátor při splnění některého z následujících kritérií: (i) Přímé účasti v procesu katalytického mechanismu; (ii) Mění pKA další zbytky nebo molekulu vody přímo účastní katalytického mechanismu; (iii) Stabilizace přechodného stavu nebo meziproduktu; a (iv) Aktivace substrátem. Všimněte si, že nezahrnuje zbytky, které se podílejí výhradně na vazbě ligandu, a proto se liší od jiných zdrojů, jako jsou anotace UniProtKB. Záznamy se provádějí s ohledem na uloženou strukturu PDB, s potenciálem mít mnoho katalytických míst v rámci jedné položky.

anotace katalytických reziduí se provádějí buď manuálním kurátorem, nebo sekvenčním porovnáním. Položky, které mají být ručně anotovány, jsou vybírány z PDB na základě kvality struktury a dostupných experimentálních důkazů katalyzované reakce. To zahrnuje podrobnosti o katalytickém mechanismu, pokud je to možné, rovněž ověřené experimentálními údaji. Anotátory poskytují stručný popis enzymu ve volném textu a podrobnější shrnutí mechanismu enzymu. Reakce sama o sobě je také prezentovány a označeny ukázat změny v molekulární podstruktury a dluhopisů objednávky/valence změny pomocí atomu–atom odpovídající algoritmus implementován v malé molekule podgraf detektor (SMSD) (5). U každého rezidua v každém katalytickém místě se zaznamená funkční část rezidua, jakož i jeho funkce a cíl popsané pomocí kontrolovaného slovníku a krátkého volného textu popisu toho, jak reziduum plní funkci. Důkazní značky poskytují přímý odkaz na literaturu, ze které jsou anotace odvozeny. Pro každé katalytické místo lze provést vyhledávání vracející všechna ostatní katalytická místa v CSA, která mají stejné katalytické zbytky seskupené podle jejich čísel EC. Kromě toho jsou poskytovány hypertextové odkazy na externí zdroje, jako jsou PDBSum (6) a IntEnz (7). Interní odkazy na jiné položky, které sdílejí stejné číslo EC (8)nebo sekvenční přístupová čísla nebo identifikátory PDB jsou vytvořeny. Souhrn typů údajů zobrazených pro záznam je uveden na obrázku 1.

Obrázek 1.

přehled údajů prezentovaných pro záznam kurátora CSA. Meta-data deskriptory jako enzym jméno a druhů, jakož i vnitřní odkazy najít položky v ČSA, které sdílejí vlastnosti spolu s odkazy na externí webové zdroje jsou uvedeny v tabulce (A). 3D prohlížeč (B) zobrazuje strukturu enzymu a zvýrazňuje každé z katalytických míst (z rozbalovací nabídky) červeně. Free-textové zprávy, celkové reakce a mechanismus jsou k dispozici (C), reakce v diagramu označeny s skupiny zachovaných v celé reakce a dluhopisů změny. D) ukazuje poznámky ke každému katalytickému reziduu v každém katalytickém místě.

Obrázek 1.

přehled údajů prezentovaných pro záznam kurátora CSA. Meta-data deskriptory jako enzym jméno a druhů, jakož i vnitřní odkazy najít položky v ČSA, které sdílejí vlastnosti spolu s odkazy na externí webové zdroje jsou uvedeny v tabulce (A). 3D prohlížeč (B) zobrazuje strukturu enzymu a zvýrazňuje každé z katalytických míst (z rozbalovací nabídky) červeně. Free-textové zprávy, celkové reakce a mechanismus jsou k dispozici (C), reakce v diagramu označeny s skupiny zachovaných v celé reakce a dluhopisů změny. D) ukazuje poznámky ke každému katalytickému reziduu v každém katalytickém místě.

Vývojáři podílí na predikci proteinů o neznámé funkci lze použít rozšířený počet vybraných položek na vlak a zkušební metody připravují. Kromě toho jednotliví uživatelé mohou přistupovat jak kurátor a homologie získaných záznamů získat podrobnosti o katalytických zbytků ve struktuře zájmů, který má potenciál být užitečné při návrhu dalších experimentů. Uživatelský zážitek byl vylepšen pomocí BioJS knihoven (9), které poskytují 3D zobrazení panelu, stejně jako označené sekvence prohlížeč zvýraznění katalytické zbytky.

v rámci širší integrace zdrojů byla ČSA sloučena se sesterskou databází MACiE. Schéma databáze pro tabulky související s CSA je znázorněno na obrázku 2. CSA je navržen jako relační databáze pomocí typické platformy Linux, Apache, MySQL a PHP podporované JavaScriptem s využitím knihovny BioJS.

Obrázek 2.

schéma databáze pro CSA. Jsou zobrazeny vztahy mezi tabulkami. Data jsou uložena v databázi MySQL.

Obrázek 2.

schéma databáze pro CSA. Jsou zobrazeny vztahy mezi tabulkami. Data jsou uložena v databázi MySQL.

odvozování katalytických zbytků pomocí porovnání sekvencí

záznamy jsou také anotovány pomocí metody automatizovaného porovnání sekvencí, která využívá kurátorské záznamy k odvození katalytických zbytků. 433 proteinových sekvencí z MACIE enzymu, mechanismus databázi a 911 sekvence unikátní pro ČSA byly extrahovány a označeny pomocí anotací pro side-chain, hlavní řetězce, upravený, reaktant a divák zbytků. ČSA homologů v PDB a přezkoumána část UniProtKB byly identifikovány pomocí SSEARCH36 (10) s statistické významnosti práh E<10-6. SSEARCH zarovnání použít –V možnost projekt identita/konzervativní/non-konzervativní postavení souladu komentovaný funkční zbytky z MACiE/CSA sekvence k homologní sekvence v PDB a SwissProt.

údaje získané podle homologie, kromě odkazů na externí zdroje dat našli v kurátoři položky, také mají vnitřní odkaz na ručně anotovaných záznamů, který byl použit k odvození katalytické zbytky. ČSA 2.0 poskytuje ruční kurátor zdroj 968 enzymu struktur a jejich katalytických míst včetně informací o funkční část každého katalytické zbytky a jeho role v enzymu, mechanismus. Použití sekvence srovnání rozšiřuje tyto popisy k dalšímu 32 216 struktur komentovaný tím, že homologie, které poskytují celkem 34 096 komentovaný struktur z možných 49 049 struktury uložené v PDB, které jsou enzymatické. To značně rozšiřuje 177 kurátorských záznamů a 2608 záznamů anotovaných homologií v CSA 1.0. Kromě toho má CSA 2.0 záznamy pro 1189 čísel EC pokrývajících všechny klasifikační třídy a podtřídy EC a většinu podtříd (obrázek 3).

obrázek 3.

e. c. pokrytí v ČSA. Klasifikace enzymové Komise všech e.C. kódy klasifikované enzymatickou Komisí jako zakořeněný strom. Každá hlavní třída je označena s (i) Oxidoreduktázy, (ii) Transferázy, (iii) Hydroláz, (iv) Lyáz, (v) Isomerázy a (vi) Ligases. Každé číslo E. C. v CSA je zbarveno červeně, se všemi hlavními třídami a podtřídy přítomnými a většinou podtříd.

obrázek 3.

e. c. pokrytí v ČSA. Klasifikace enzymové Komise všech kódů E. C. klasifikovaných enzymovou Komisí označenou jako zakořeněný strom. Každá hlavní třída je označena s (i) Oxidoreduktázy, (ii) Transferázy, (iii) Hydroláz, (iv) Lyáz, (v) Isomerázy a (vi) Ligases. Každé číslo E. C. v CSA je zbarveno červeně, se všemi hlavními třídami a podtřídy přítomnými a většinou podtříd.

ENZYM MECHANISMUS ONTOLOGIE

i když ČSA a MACiE zdrojů byly vyvinuty poněkud v tandemu a tím sdílejí společný datový model, to je v současné době náročné propojení těchto enzymů anotace v zdrojů, jako jsou UniProtKB vzhledem k rozdílům v definicích enzymu, vlastnosti a slovní zásobě používaných při jejich popis. I když popisy a definice některých informací, které se konalo ve všech třech databázích jsou vyrobeny v existujících ontologií jako GO (11) a ChEBI (12) ontologie, si tyto a aplikovat je rovnoměrně na všechny tři databáze se ukázala daleko od triviální.

CSA a jeho sestra databáze, MACiE, využít kontrolovaný slovník, s MACiE vlastnit podrobnější slovní zásobu, protože se zaměřuje na enzymy v mnohem větší hloubce zahrnout důkladné popisy chemických reakcí kroky provedeny. Rovněž přezkoumána část UniProtKB (UniProtKB/Swiss-Prot) také zachycuje enzym-související údaje i na širší proteinové sekvence úrovni, včetně informací o katalytické zbytky. Anotace jsou vytvářeny jak jako volný text, tak pomocí nezávisle vyvinuté řízené slovní zásoby.

abychom to vyřešili, vyvinuli jsme EMO, který staví na řízené slovní zásobě vyvinuté pro MACiE a CSA a bude předložen slévárně OBO (13). Toto slovní zásobu (viz Doplňkový Materiál nebo http://purl.bioontology.org/ontology/EMO) byl vytvořen k popisu aktivní složky enzymu, reakce (kofaktory, aminokyseliny a příbuzné ligandy) a jejich role v reakci. EMO na tom staví formalizací klíčových pojmů a vztahů mezi nimi nezbytných k definování enzymů a jejich funkcí. To popisuje nejen obecné rysy enzymu, včetně čísla EC (katalytická aktivita), 3D struktury a buněčných umístění, ale také umožňuje podrobnou anotaci mechanismu. Tento mechanistický detail může být buď na hrubé úrovni (celková reakce pouze zachycená v CSA), nebo podrobnější zrnitost kroků a složek potřebných k provedení celkové chemické transformace.

EMO umožňuje spojit mnoho různých zdrojů, a to i tam, kde jsou anotace vytvořeny pouze částečně, což by mohlo umožnit rozšíření neúplné anotace. Komunikace mezi databázemi může být usnadněna použitím takového univerzálního zdroje, který mapuje nesourodé pojmy do společného datového modelu. Všechny anotace CSA kurátorských záznamů byly integrovány do anotací uvedených v UniProtKB.

generování 3D šablon

pomocí nově kurátorských záznamů je možné vytvářet trojrozměrné šablony sestávající pouze z několika atomů aktivních zbytků místa. Alternativní typy reziduí pro každý katalytický zbytek v šabloně lze do šablony katalogizovat z rovnocenných pozic ze záznamů odvozených homologií. To rozšiřuje sadu 149 šablon vytvořených z CSA 1.0 na celkem 584 šablon z CSA 2.0. Šablony mohou být použity Jess, rychlý a flexibilní algoritmus pro vyhledávání proteinových struktur pro malé skupiny atomů založené na geometrické a chemické omezení (14), vyhledávání prostřednictvím nové struktury najít potenciální katalytických míst. Toto bylo implementováno v novém CSS serveru (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Uživatelé této asynchronní služby můžete buď nahrát vlastní strukturu souboru nebo žádost uložené struktury (pokud to není již být komentovaný ČSA), které mají být vyhledávány pomocí nové šablony. Výsledky jsou seřazeny na základě RMSD a log E-hodnoty. Šablona vytvořená z každé kurátorské položky je přístupná z příslušné vstupní stránky CSA a společně je k dispozici ke stažení.

ZÁVĚRY

ČSA 2.0 poskytuje nové moderní rozhraní velmi rozšířené ručně sestaveného datového souboru reziduí podílí enzym katalytického místa a funkční role, kterou hrají v reakci. Byla implementována nová metoda pro spolehlivou extrapolaci anotací a identifikaci katalytických zbytků na homologní struktury. Kromě toho lze kurátorské záznamy použít k vytvoření 3D šablon katalytických webů,které lze zase použít k vyhledávání nových struktur pro katalytickou identifikaci stránek pomocí revidované služby CSS. Dále byla vyvinuta nová ontologie umožňující přenos anotací týkajících se enzymové katalýzy mezi zdroji. To bylo použito k zahrnutí anotací CSA do UniProtKB a MACiE.

databáze je k dispozici na http://www.ebi.ac.uk/thornton-srv/databases/CSA, zatímco CSS a služby lze nalézt na http://www.ebi.ac.uk/thornton-srv/databases/CSS. Oba jsou kompatibilní s většinou moderních webových prohlížečů. Všechna data v ČSA jsou ke stažení a volně dostupná akademické obci.

financování

prohlášení o střetu zájmů. Žádný deklarován.

DĚKUJEME

autoři by rádi poděkovali úsilí mnoha anotátory, kteří přispěli k kurátorem položky v ČSA. Rádi bychom také poděkovali Dr. Syedovi a. Rahmanovi za poskytnutí označených reakčních diagramů.

1

Uniprot Consortium
informace o činnosti v Universal Protein Resource (UniProt) v roce 2013
Nukleové Kyseliny, Res.

,

2013

, vol.

41

(str.

d43 vkládá se nový

D47

)

2

Porter
CT

,

Bartlett
GJ

Thornton
JM

.

Katalytické Místo Atlas: zdroj katalyticky míst a zbytků zjištěných v enzymech s využitím strukturálních dat
Nukleových Kyselin.
2004

, vol.

32

(str.

D129

D133

)

3

Velankar

,

Alhroub
Y

C

Caboche

Conroy
MJ

,

Dana
JM

Fernandez Montecelo
MATNÝ

van Ginkel
G

Golovin

,

Gore
SP

, et al.

PDBe: Proteinová Datová banka v Evropě

,

nukleové kyseliny Res.

,

2012

, vol.

40

(str.

D445

D452

)

4

Holliday
GL

,

Andreini
C

Fischer
JD

Zřídka

Almonacid

,

Williams
ST

Pearson
WR

.

MACiE: zkoumání rozmanitosti biochemických reakcí

,

nukleové kyseliny Res.

,

2012

, vol.

40

(str.

D783

D789

)

5

Zřídka

,

Bashton
M

Holliday
G

Schrader
R

Thornton
J

.

Small Molecule Subgraph Detector (SMSD) toolkit

,

J.Cheminform.

,

2009

, vol.

1

pg.

12

6

Laskowski
VZÁCNÉ

.

PDBsum new things

,

nukleové kyseliny Res.

,

2009

, vol.

37

(str.

D355

D359

)

7

Fleischmann

,

Darsow
M

Degtyarenko
K

Fleischmann

Boyce

,

Axelsen
KB

Bairoch

Schomburg
D

Tipton
NF

,

Apweiler
R

.

IntEnz, integrované relační enzymu databáze
Nukleových Kyselin.
2004

, vol.

32

(str.

D434

D437

)

8

Mezinárodní Unie pro Biochemii a Molekulární Biologii, Nomenklatury,C. a Webb,E. C. (1992) Názvosloví Enzymů 1992 : doporučení Nomenklatury Výboru Mezinárodní Unie Biochemie a Molekulární Biologie na Nomenklatury a Klasifikace Enzymů/Přípravky pro NC-IUBMB tím, Edwin C. Webb. Publikoval pro Mezinárodní Unie Biochemie a Molekulární Biologie tím, Academic Press, San Diego
9

Gomez
J

,

Garcia

Salazar
GA

Villaveces
J

Gore

,

Garcia

Martin
MJ

Martin
G

, Alcantara
R

Del-Toro
N

et al.

BioJS: open source JavaScript framework pro vizualizaci biologických dat

,

Bioinformatics

,

2013

, vol.

29

(str.

1103

1104

)

10

Sierk
ML

,

Pearson
WR

.

citlivost a selektivita ve srovnání struktury proteinu

,

Protein Sci.

,

2004

, vol.

13

(str.

773

785

)

11

Blake
JA

,

Dolan
M

Drabkin
H

Hill
DP

N

,

Sitnikov
D

Mosty

Burgess

Buza
T

,

McCarthy
F

, et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

,

de Matos
P

Dekker

Ennis
M

Harsha
B

,

Kůry
N

Muthukrishnan
V

Owen
G

Turner

,

Williams
M

, et al.

ChEBI referenční databáze a ontologie pro biologicky relevantní chemie: vylepšení pro rok 2013
Nukleových Kyselin.
2013

, vol.

41

(str.

D456

D463

)

13

Smith
B

,

Ashburner
M

Rosse
C

Bard
J

Chyba

,

Ceusters

Goldberg

Eilbeck
K

Irsko

,

Mungall
CJ

, et al.

Slévárna OBO: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

Autor poznámky

Současné adresy: Gemma L. Svátek, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.