Atlas miejsca katalitycznego 2.0: Katalogowanie miejsc katalitycznych i pozostałości zidentyfikowanych w enzymach

Streszczenie

zrozumienie, które są resztami katalitycznymi w enzymie i jakie funkcje pełnią, jest kluczowe w wielu badaniach biologicznych, szczególnie tych prowadzących do nowych metod terapeutycznych i projektowania enzymów. Oryginalna wersja Atlasu miejsca katalitycznego (Csa) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) opublikowana w 2004 roku, która kataloguje pozostałości biorące udział w katalizie enzymatycznej w doświadczalnie określonych strukturach białkowych, miała tylko 177 kuratorskich wpisów i zastosowała uproszczone podejście do rozszerzenia tych adnotacji na homologiczne struktury enzymów. Poniżej przedstawiamy nową wersję CSA (CSA 2.0), która znacznie rozszerza liczbę zarówno wyselekcjonowanych (968), jak i automatycznie adnotowanych miejsc katalitycznych w strukturach enzymatycznych, wykorzystując nową metodę transferu adnotacji. Wybrane pozycje są wykorzystywane, wraz ze zmianą typu pozostałości z porównania sekwencji, do generowania szablonów 3D miejsc katalitycznych, które z kolei mogą być wykorzystane do wyszukiwania miejsc katalitycznych w nowych strukturach. Aby ułatwić przenoszenie adnotacji CSA do innych zasobów, opracowano nową ontologię: ontologię mechanizmu enzymatycznego, która umożliwiła przenoszenie adnotacji do mechanizmu, adnotacji i klasyfikacji w zasobach enzymy (MACiE) i UniProt Knowledge Base (UniProtKB). Schemat bazy danych CSA został przeprojektowany, a zarówno dane CSA, jak i możliwości wyszukiwania są prezentowane w nowym, nowoczesnym interfejsie internetowym.

wprowadzenie

enzymy stanowią ∼45% zbiorczych produktów białkowych wszystkich genomów skatalogowanych przez zasoby, takie jak Baza Wiedzy UniProt (UniProtKB) (1). Jako katalizatory biologiczne ułatwiają wiele procesów metabolicznych i szlaków, które są krytyczne dla istnienia życia i były przedmiotem badań biologów i chemików od ponad 100 lat. Są one również jednymi z głównych celów w rozwoju leków farmaceutycznych, z wieloma zatwierdzonymi lekami działającymi w celu modyfikacji działania enzymów zaangażowanych w procesy chorobowe. Ponadto często są one centralnym punktem zastosowań biotechnologicznych. Szczegółowe informacje na temat pozostałości katalitycznych i miejsc aktywnych enzymów są niezbędne do zrozumienia zależności między strukturą i funkcjami białka, projektowaniem inhibitorów i projektowaniem enzymów.

Atlas miejsca katalitycznego (CSA) (2) został utworzony w celu zapewnienia specjalnych adnotacji na temat niewielkiej liczby silnie konserwowanych pozostałości, które są bezpośrednio zaangażowane w podejmowanie aktywności katalitycznej w enzymach, których struktury zostały zdeponowane w banku danych o białkach (PDB) (3). Te wybrane pozycje można z kolei wykorzystać do wnioskowania pozostałości katalitycznych w innych strukturach enzymatycznych poprzez homologię, przy użyciu prostej metody PSIBlast.

oryginalny zasób zawierał 177 ręcznie adnotowanych wpisów i 2608 wpisów homologicznych i obejmował ∼30% wszystkich numerów WE znalezionych w PDB. Prezentujemy tutaj nową wersję katalitycznego Atlasu-Csa 2.0. Znacznie zwiększyliśmy liczbę wpisów kuratorskich do 968 i wdrożyliśmy nową, bardziej wyrafinowaną metodę przenoszenia adnotacji do struktur homologicznych, zwiększając odporność transferu adnotacji. Rozszerzenie wybranych wpisów pozwala również na dodanie nowych szablonów strukturalnych 3D, które zostały wykorzystane w rewizji usługi katalitycznego wyszukiwania stron. Ponadto schemat bazy danych został przeprojektowany, integrując go z siostrzaną bazą danych mechanizmów enzymatycznych: Mechanizm, Adnotacja i klasyfikacja w bazie enzymów (MACiE) (4). Opracowaliśmy również nową ontologię, ontologię mechanizmu enzymatycznego (Emo), umożliwiającą integrację informacji CSA zarówno w strukturach danych MACiE, jak i UniProtKB i może być używana jako kontrolowane słownictwo do opisywania aspektów sekwencji i struktury białka za pomocą terminów chemicznych i mechanistycznych w różnych zasobach.

zawartość CSA

podstawowe dane przechowywane w CSA to pozostałości białkowe z doświadczalnie określonych struktur atomowych, które są zdefiniowane jako katalityczne. Pozostałości są oznaczane jako katalityczne przez spełnienie jednego z następujących kryteriów: (i) bezpośredni udział w mechanizmie katalitycznym; (ii) zmienia pKA innej pozostałości lub cząsteczki wody bezpośrednio uczestniczącej w mechanizmie katalitycznym; (iii) stabilizacja stanu przejściowego lub pośredniego; oraz (iv) Aktywacja substratu. Zauważ, że nie zawiera reszt, które są zaangażowane wyłącznie w Wiązanie ligandów i tym samym różni się od innych zasobów, takich jak adnotacje UniProtKB. Wpisy są dokonywane w odniesieniu do zdeponowanej struktury PDB, z możliwością posiadania wielu miejsc katalitycznych w ramach jednego wpisu.

adnotacje dotyczące pozostałości katalitycznych są wykonywane ręcznie lub poprzez porównanie sekwencji. Pozycje, które mają być ręcznie adnotowane, wybiera się z PDB w oparciu o jakość struktury i dostępne dowody doświadczalne reakcji katalizowanej. Obejmuje to szczegóły dotyczące mechanizmu katalitycznego, w miarę możliwości również potwierdzone danymi doświadczalnymi. Adnotatory zawierają krótki tekstowy opis enzymu, jak również bardziej szczegółowe podsumowanie mechanizmu enzymatycznego. Sama reakcja jest również przedstawiona i oznaczona, aby pokazać zmiany w cząsteczkowych substrukturach i zmiany kolejności wiązania/wartościowości za pomocą algorytmu dopasowywania atom–atom zaimplementowanego w detektorze subgraficznym małych cząsteczek (SMSD) (5). Dla każdej pozostałości w każdym miejscu katalitycznym zapisuje się część funkcjonalną pozostałości, jak również jej funkcję i cel, opisując za pomocą kontrolowanego słownictwa i krótkiego, swobodnego opisu sposobu, w jaki pozostałości spełniają tę funkcję. Tagi Evidence zapewniają bezpośredni link do literatury, z której pochodzą adnotacje. Dla każdego miejsca katalitycznego można przeprowadzić wyszukiwanie zwracając wszystkie inne miejsca katalityczne w CSA, które mają te same pozostałości katalityczne zgrupowane według ich numerów E. C. Ponadto udostępniono hiperłącza do zasobów zewnętrznych, takich jak PDBSum (6) i IntEnz (7). Umieszczane są linki wewnętrzne do innych wpisów, które mają ten sam numer E. C. (8) lub numery porządkowe lub identyfikatory WPB. Podsumowanie typów danych pokazanych dla danego wpisu przedstawiono na rysunku 1.

Rysunek 1.

przegląd danych prezentowanych dla wpisu Csa. Deskryptory metadanych, takie jak nazwa enzymu i gatunek, a także wewnętrzne linki do znajdowania wpisów w CSA, które mają wspólne właściwości wraz z linkami do zewnętrznych zasobów internetowych, są pokazane w tabeli (a). Przeglądarka 3D (B) wyświetla strukturę enzymu, podświetlając na czerwono wszystkie miejsca katalityczne (z rozwijanego menu). C) z diagramem reakcji oznaczonym grupami zachowanymi w całej reakcji i zmianach wiązania. D) przedstawia adnotacje dla każdej pozostałości katalitycznej w każdym miejscu katalitycznym.

Rysunek 1.

przegląd danych prezentowanych dla wpisu Csa. Deskryptory metadanych, takie jak nazwa enzymu i gatunek, a także wewnętrzne linki do znajdowania wpisów w CSA, które mają wspólne właściwości wraz z linkami do zewnętrznych zasobów internetowych, są pokazane w tabeli (a). Przeglądarka 3D (B) wyświetla strukturę enzymu, podświetlając na czerwono wszystkie miejsca katalityczne (z rozwijanego menu). C) z diagramem reakcji oznaczonym grupami zachowanymi w całej reakcji i zmianach wiązania. D) przedstawia adnotacje dla każdej pozostałości katalitycznej w każdym miejscu katalitycznym.

Programiści zaangażowani w przewidywanie białek o nieznanej funkcji mogą korzystać z rozszerzonej liczby kuratorskich wpisów do szkolenia i testowania opracowywanych metodologii. Ponadto indywidualni użytkownicy mogą uzyskać dostęp zarówno do wpisów kuratorskich, jak i pochodzących z homologii, aby uzyskać szczegóły dotyczące pozostałości katalitycznych w interesującej strukturze, która może być przydatna w projektowaniu dalszych eksperymentów. Interfejs użytkownika został ulepszony za pomocą bibliotek BioJS (9), które zapewniają panel wyświetlania 3D, a także widoczną przeglądarkę sekwencji, podkreślającą pozostałości katalityczne.

w ramach szerszej integracji zasobów, CSA została połączona z siostrzaną bazą MACiE. Schemat bazy danych dla tabel związanych z CSA przedstawiono na rysunku 2. CSA jest zaprojektowany jako relacyjna baza danych przy użyciu typowej platformy Linux, Apache, MySQL i PHP wspomaganej przez JavaScript z wykorzystaniem biblioteki BioJS.

Rysunek 2.

schemat bazy danych dla CSA. Pokazano relacje między tabelami. Dane są przechowywane w bazie danych MySQL.

Rysunek 2.

schemat bazy danych dla CSA. Pokazano relacje między tabelami. Dane są przechowywane w bazie danych MySQL.

wnioskowanie pozostałości katalitycznych poprzez porównanie sekwencji

wpisy są również adnotowane przy użyciu zautomatyzowanej metody porównywania sekwencji, która wykorzystuje wybrane wpisy do wnioskowania pozostałości katalitycznych. 433 sekwencje białkowe z bazy danych mechanizmu enzymatycznego MACIE i sekwencje 911 unikalne dla CSA zostały wyekstrahowane i oznaczone przy użyciu adnotacji dla reszt łańcucha bocznego, łańcucha głównego, modyfikowanych, reagentów i obserwatorów. Homologi CSA w PDB i w sekcji „uniprotkb” zostały zidentyfikowane przy użyciu SSEARCH36 (10) z progiem istotności statystycznej e<10-6. Ssearch alignments wykorzystał opcję-V do wyświetlenia statusu tożsamości / konserwatywnego/niekonserwatywnego wyrównanych adnotowanych reszt funkcjonalnych z sekwencji MACiE/Csa do sekwencji homologicznych w PDB i SwissProt.

wpisy pochodzące z homologii, oprócz linków do zewnętrznych źródeł danych znalezionych w wybranych wpisach, mają również wewnętrzny link do ręcznie adnotowanych wpisów, które zostały użyte do wnioskowania o pozostałości katalityczne. CSA 2.0 zapewnia ręcznie dobrany zasób 968 struktur enzymatycznych i ich miejsc katalitycznych, w tym informacje na temat funkcjonalnej części każdej pozostałości katalitycznej i jej roli w mechanizmie enzymatycznym. Zastosowanie porównań sekwencji rozszerza te adnotacje na dalsze 32 216 struktur opatrzonych adnotacjami homologicznymi, zapewniając łącznie 34 096 struktur opatrzonych adnotacjami z możliwych 49 049 struktur zdeponowanych w PDB, które są enzymatyczne. To znacznie rozszerza 177 kuratorowanych wpisów i 2608 wpisów adnotowanych przez homologię w CSA 1.0. Dodatkowo, CSA 2.0 zawiera wpisy dla 1189 numerów E. C. obejmujących wszystkie klasy i podklasy klasyfikacji E. C. oraz większość podklas (Rysunek 3).

Rysunek 3.

E. C. coverage w CSA. Klasyfikacja enzymatyczna wszystkich E.C. kody klasyfikowane przez Komisję enzymatyczną jako ukorzenione drzewo. Każda z głównych klas jest oznaczona (i) Oksydoreduktazami, (ii) Transferazami, (iii) Hydrolazami, (iv) Liazami, (v) Izomerazami i (vi) Ligazami. Każdy numer E. C. W CSA jest zabarwiony na Czerwono, z obecnymi wszystkimi głównymi klasami i podklasami oraz większością podklas.

Rysunek 3.

E. C. coverage w CSA. The Enzyme Commission classification of all E. C. codes classified by the Enzyme Commission rendered as a rooted tree. Każda z głównych klas jest oznaczona (i) Oksydoreduktazami, (ii) Transferazami, (iii) Hydrolazami, (iv) Liazami, (v) Izomerazami i (vi) Ligazami. Każdy numer E. C. W CSA jest zabarwiony na Czerwono, z obecnymi wszystkimi głównymi klasami i podklasami oraz większością podklas.

ontologia mechanizmu enzymatycznego

chociaż zasoby Csa i MACiE zostały opracowane nieco równolegle i tym samym mają wspólny model danych, obecnie trudno jest powiązać je z adnotacjami enzymatycznymi w zasobach takich jak UniProtKB ze względu na różnice w definicjach właściwości enzymów i słownikach używanych w ich opisie. Chociaż opisy i definicje niektórych informacji przechowywanych we wszystkich trzech bazach danych są dokonywane w istniejących ontologiach, takich jak go (11) i chebi (12), łączenie ich i stosowanie ich jednolicie do wszystkich trzech baz danych okazało się dalekie od trywialności.

CSA i jego siostrzana baza danych, MACiE, wykorzystują kontrolowane słownictwo, a MACiE ma bardziej szczegółowe słownictwo, ponieważ koncentruje się na enzymach w znacznie większej głębi, aby uwzględnić dokładne opisy wykonanych etapów reakcji chemicznej. Podobnie, recenzowana sekcja UniProtKB (UniProtKB/Swiss-Prot) zawiera również dane związane z enzymami na szerszym poziomie sekwencji białek, w tym informacje na temat pozostałości katalitycznych. Adnotacje są wykonywane zarówno jako wolny tekst, jak i przy użyciu niezależnie opracowanego kontrolowanego słownictwa.

aby temu zaradzić, opracowaliśmy EMO, które opiera się na kontrolowanym słowniku opracowanym dla Maćka i CSA i zostanie przekazane do Odlewni OBO (13). Słownik ten (patrz materiał uzupełniający lub http://purl.bioontology.org/ontology/EMO) został stworzony w celu opisania aktywnych składników reakcji enzymu (kofaktorów, aminokwasów i ligandów poznawczych) oraz ich roli w reakcji. EMO opiera się na tym, formalizując kluczowe pojęcia i relacje między nimi, niezbędne do zdefiniowania enzymów i ich funkcji. Opisuje to nie tylko ogólne cechy enzymu, w tym numer E. C. (aktywność katalityczna), strukturę 3D i lokalizacje komórkowe, ale także pozwala na szczegółową adnotację mechanizmu. Ten mechanistyczny szczegół może być albo na poziomie brutto (ogólna reakcja tylko uchwycona w CSA), albo bardziej szczegółowa ziarnistość etapów i składników wymaganych do dokonania ogólnej transformacji chemicznej.

EMO pozwala na łączenie wielu różnych zasobów, nawet jeśli adnotacje są tylko częściowo wykonane, co może pozwolić na rozwinięcie niekompletnej adnotacji. Komunikacja między bazami danych może być ułatwiona dzięki wykorzystaniu takiego uniwersalnego zasobu, który odwzorowuje różne terminy na wspólny model danych. Wszystkie adnotacje wpisów Csa zostały zintegrowane z adnotacjami udostępnionymi w UniProtKB.

generowanie szablonów 3D

za pomocą nowo dobranych wpisów możliwe jest zbudowanie trójwymiarowych szablonów składających się tylko z kilku atomów pozostałości aktywnego miejsca. Alternatywne typy pozostałości dla każdej pozostałości katalitycznej w szablonie można skatalogować w szablonie z równoważnych pozycji z pozycji uzyskanych za pomocą homologii. Rozszerza to zestaw 149 szablonów zbudowanych z CSA 1.0 do łącznie 584 szablonów z CSA 2.0. Szablony mogą być używane przez Jess, szybki i elastyczny algorytm wyszukiwania struktur białkowych dla małych grup atomów w oparciu o ograniczenia geometryczne i chemiczne (14), do przeszukiwania nowych struktur w celu znalezienia potencjalnych miejsc katalitycznych. Zostało to zaimplementowane w nowym serwerze CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Użytkownicy tej usługi asynchronicznej mogą przesłać własny plik struktury lub zażądać, aby zdeponowana struktura (jeśli nie została jeszcze dodana przez CSA) została przeszukiwana za pomocą nowych szablonów. Wyniki są uszeregowane na podstawie RMSD i log e-value. Szablon wykonany z każdego wybranego wpisu można uzyskać z odpowiedniej strony wejścia CSA, a także zbiorczo udostępniony do pobrania.

wnioski

CSA 2.0 zapewnia nowy, nowoczesny interfejs do znacznie rozszerzonego, ręcznie sterowanego zbioru danych o resztach zaangażowanych w enzymatyczne miejsca katalityczne i funkcyjnej roli, jaką odgrywają w reakcji. Wprowadzono nową metodę wiarygodnej ekstrapolacji adnotacji i identyfikacji pozostałości katalitycznych do struktur homologicznych. Ponadto wybrane wpisy mogą być używane do tworzenia szablonów 3D witryn katalitycznych, które z kolei mogą być używane do wyszukiwania nowych struktur do identyfikacji witryn katalitycznych za pomocą zmienionej usługi CSS. Ponadto opracowano nową ontologię, aby umożliwić przenoszenie adnotacji dotyczących katalizy enzymatycznej między zasobami. Zostało to wykorzystane do włączenia adnotacji CSA w UniProtKB i MACiE.

baza danych jest dostępna pod adresemhttp://www.ebi.ac.uk/thornton-srv/databases/CSA, natomiast serwis CSS znajduje się pod adresemhttp://www.ebi.ac.uk/thornton-srv/databases/CSS. Oba są kompatybilne z większością nowoczesnych przeglądarek internetowych. Wszystkie dane w CSA są do pobrania i BEZPŁATNIE dostępne dla społeczności akademickiej.

finansowanie

Oświadczenie o konflikcie interesów. Brak deklaracji.

podziękowania

autorzy chcieliby podziękować wysiłkom wielu adnotatorów, którzy przyczynili się do kuratorskich wpisów w CSA. Chcielibyśmy również podziękować Dr Syed A. Rahman za dostarczenie oznaczonych diagramów reakcji.

1

Konsorcjum Uniprot
Update on activities at the Universal Protein Resource (UniProt) in 2013

,

Nucleic Acids Res.

,

2013

, Tom.

41

(str.

D43

D47

)

2

Porter
CT

,

Bartlett
J. w.J.

,

Thornton
J.M.

.

Atlas miejsc katalitycznych: zasób miejsc katalitycznych i reszt zidentyfikowanych w enzymach przy użyciu danych strukturalnych

,

kwasy nukleinowe OTV.

,

2004

, Tom.

32

(str.

D129

D133

)

3

Веланкар

Альхруб
Y

Najlepsze
C

Кабош

Conroy
MJ

Dana
JM

Fernandez Монтесело
MATHIS

van Гинкель
G

Gołowin
I

Góra
SP

itp.

PDBe: Bank danych o białkach w Europie

,

lista kwasów nukleinowych

,

2012

, Tom.

40

(str.

D445

D452

)

4

Holliday
GL

,

Andreini
c

,

Fischer
JD

,

rzadko
to

,

Kwas migdałowy
dwa

,

Williams
St

,

Pearson
BP

.

Macy: badanie różnorodności reakcji biochemicznych

,

kwasy nukleinowe OTV.

,

2012

, Tom.

40

(str.

D783

D789

)

5

S

,

bashton
m

,

Holliday
r

,

Niszczarka
p

,

Thornton
j

.

zestaw narzędzi detektora podgrafów małych cząsteczek (SMSD)

,

J. Himinform.

,

2009

, Tom.

1

str.

12

6

Laskowski
Rzadki

.

PDBsum nowe rzeczy

,

kwasy nukleinowe OTV.

,

2009

, Tom.

37

(str.

D355

D359

)

7

Fleischman
I

Дарсов
M

Дегтяренко
Do

Fleischman
Ty

Boyce

Аксельсен
KB

Байроч
I

Schomburg
D

Tipton
SF

Апвейлер
P

.

IntEnz, the integrated relational enzyme database

,

Nucleic Acids Res.

,

2004

, vol.

32

(str.

D434

d437

)

8

Międzynarodowa Unia Biochemii i Biologii Molekularnej, Nomenklatura,C. i Webb,E. C. (1992) Enzyme Nomenclature 1992 : recommendations of the Nomenclature Committee of the International Union of Biochemistry and molecular biology on the nomenclature and classification of enzymes/prepared for NC-iubmb by Edwin C. Webb. Opublikowane dla Międzynarodowej Unii biochemii i biologii molekularnej przez Academic Press, San Diego

9

Gomez
J

,

Garcia
LJ

,

Salazar
Ga

,

villaveses
j

,

góry
z

,

Garcia
a

,

Martin
MJ

,

lunai
g

,

Alcantara
r

,

Del Toro
N

i in.

Biojs: Platforma JavaScript open source do wizualizacji danych biologicznych

,

Bioinformatyka

,

2013

, Tom.

29

(str.

1103

1104

)

10

serk
ml

,

Pearson
WR

.

czułość i selektywność w porównaniu struktury białka

,

nauka o białkach.

,

2004

, Tom.

13

(str.

773

785

)

11

Blake
Jah

,

Dolan
m

,

drabkin
n

,

Hill
DP

,

it
n

,

sitników
d

,

mosty
z

,

Burgess
z

,

Buza
t

,

McCarthy
f

itp.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

de Матос
P

Dekker
I

Ennis
M

Харша
B

Pił
N

Мутукришнан
W

Owen
G

Turner

Williams
M

itp.

chebi reference database and ontology for biologically relevant chemistry: enhancements for 2013

,

Nucleic Acids Res.

,

2013

, vol.

41

(str.

D456

D463

)

13

Smith
B

Popielniczka
M

Rosse
C

Bard
J

Błąd
Ty

Ceusters
Ty

Goldberg
Lj

Эйлбек
Do

Irlandia
I

Мунгалл
CJ

itp.

Odlewnia O: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

author notes

Present addresses: Gemma L. Holiday, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, używany.

Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.