Catalytic Site Atlas 2.0: katalogisering katalytiske steder og rester identifisert i enzymer

Abstract

Forståelse som er katalytiske rester i et enzym og hvilken funksjon de utfører er avgjørende for mange biologi studier, spesielt de som fører til nye terapeutiske og enzymdesign. Den opprinnelige versjonen Av Catalytic Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) publisert i 2004, som katalogiserer rester involvert i enzymkatalyse i eksperimentelt bestemte proteinstrukturer, hadde bare 177 kuraterte oppføringer og benyttet en forenklet tilnærming til å utvide disse merknadene til homologe enzymstrukturer. Her presenterer VI en ny versjon AV CSA (CSA 2.0), som utvider antallet både kuraterte (968) og automatisk annoterte katalytiske steder i enzymstrukturer, ved hjelp av en ny metode for annotasjonsoverføring. De kuraterte oppføringene brukes, sammen med variasjonen i resttype fra sekvenssammenligningen, til å generere 3d-maler av katalytiske steder, som igjen kan brukes til å finne katalytiske steder i nye strukturer. For å lette overføringen AV csa-merknader til andre ressurser er det utviklet en ny ontologi: Enzymmekanismen Ontologi, som har tillatt overføring av merknader Til Mekanisme, Merknad og Klassifisering I Enzymer (MACiE) og UniProt Knowledge Base (UniProtKB) ressurser. CSA databaseskjemaet har blitt re-designet og BÅDE CSA data og søkemuligheter presenteres i et nytt moderne webgrensesnitt.

INTRODUKSJON

Enzymer representerer ∼45% av de kollektive proteinproduktene av alle genomene katalogisert av ressurser som UniProt Knowledge Base (UniProtKB) (1). Som biologiske katalysatorer letter de de mange metabolske prosessene og veiene som er kritiske for at livet skal eksistere, og har vært fokus for studier av biologer og kjemikere i over 100 år. De er også noen av de viktigste målene i farmasøytisk legemiddelutvikling, med mange godkjente stoffer som virker for å modifisere virkningen av enzymer som er involvert i sykdomsprosesser. I tillegg er de ofte fokuspunktet for bioteknologiske applikasjoner. Detaljert informasjon om katalytiske rester og enzymaktive steder er avgjørende for å forstå forholdet mellom proteinstruktur og funksjoner, design av hemmere og enzymdesign.Catalytic Site Atlas (Csa) (2) ble etablert for å gi kuraterte merknader om det lille antallet svært konserverte rester som er direkte involvert i å gjennomføre katalytisk aktivitet i enzymer hvis strukturer er deponert i Protein Data Bank (PDB) (3). Disse kuraterte oppføringene kan i sin tur brukes til å utlede katalytiske rester i andre enzymstrukturer gjennom homologi, ved hjelp av en enkel PSIBlast-metode.

den opprinnelige ressursen inneholdt 177 håndmerkede oppføringer og 2608 homologe oppføringer, og dekket ∼30% av ALLE EC-numre funnet i PDB. Vi presenterer her en ny versjon Av Det Katalytiske Nettstedet Atlas-CSA 2.0. Vi har betydelig økt antall kuraterte oppføringer til 968 og implementere en ny mer sofistikert metode for overføring av merknader til homologe strukturer øke robustheten av merknad overføring. Utvidelsen av kuraterte oppføringer tillater også tillegg av nye 3d strukturelle maler, som har blitt brukt i en revisjon av Katalytisk Nettstedssøkingstjeneste. I tillegg databaseskjemaet har blitt re-designet, integrere den i en søster database med enzymmekanismer: Mekanisme, Merknad og Klassifisering I Enzymer (MACiE) database (4). Vi har også utviklet En ny ontologi, Enzyme Mechanism Ontology (EMO), som tillater integrering AV CSA-informasjon i Både MACiE og UniProtKB datastrukturer og kan brukes som et kontrollert ordforråd for å beskrive aspekter av proteinsekvens og struktur med kjemi og mekanistiske termer på tvers av ressurser.

CSA INNHOLD

prinsippdataene i CSA er proteinrester fra eksperimentelt bestemte atomstrukturer som er definert som katalytiske. Rester er betegnet som katalytisk ved å oppfylle et av følgende kriterier: (i) Direkte involvering i katalytisk mekanisme; (ii) Endrer pKA av et annet rest-eller vannmolekyl som er direkte involvert i katalytisk mekanisme; (iii) Stabilisering av en overgangsstatus eller mellomliggende; og (iv) Aktivering av et substrat. Merk at det ikke inkluderer rester som bare er involvert i ligandbinding og dermed skiller seg fra andre ressurser, for eksempel UniProtKB-merknader. Oppføringer er gjort med hensyn til deponert PDB struktur, med potensial til å ha mange katalytiske områder innenfor en enkelt oppføring.

Katalytiske restmerknader gjøres enten ved manuell kurering eller gjennom sekvenssammenligning. Oppføringer som skal annoteres manuelt, velges fra PDB basert på strukturens kvalitet og tilgjengelige eksperimentelle bevis på reaksjonen katalysert. Dette inkluderer detaljer om katalytisk mekanisme, også validert av eksperimentelle data der det er mulig. Annotatorer gir en kort fritekstbeskrivelse av enzymet, samt en mer detaljert oppsummering av enzymmekanismen. Reaksjonen i seg selv er også presentert og merket opp for å vise endringene i molekylære understrukturer og bindingsordre/valensendringer ved hjelp av en atom-atom matchende algoritme implementert i små molekyl subgraph detektor (SMSD) (5). For hver rest i hvert katalytisk sted registreres den funksjonelle delen av residuet, samt dens funksjon og mål beskrevet ved hjelp av et kontrollert ordforråd og en kort fritekstbeskrivelse av hvordan residuet utfører funksjonen. Beviskoder gir en direkte link til litteraturen som merknadene ble avledet fra. For hvert katalytisk område et søk kan utføres retur alle andre katalytiske områder I CSA som har de samme katalytiske rester gruppert etter Deres E. C. tall. I tillegg er det gitt hyperkoblinger til eksterne ressurser, For eksempel PDBSum (6) og IntEnz (7). Interne lenker til andre oppføringer som deler Samme E. C. nummer (8) eller sekvens tiltredelse tall eller PDB identifikatorer er gjort. Et sammendrag av datatypene som vises for en oppføring er gitt I Figur 1.

Figur 1.

Oversikt over data presentert for EN CSA-kuratert oppføring. Meta – data beskrivelser som enzym navn og arter samt interne lenker for å finne oppføringer I CSA som deler egenskaper sammen med lenker til eksterne nettressurser vises i en tabell (A). EN 3d-visning (B) viser enzymstrukturen, og markerer hver av de katalytiske stedene (fra en rullegardinmeny) i rødt. En fritekstrapport av den totale reaksjonen og mekanismen er gitt (C) med et reaksjonsdiagram merket opp med grupper konservert på tvers av reaksjons-og bindingsendringer. (D) Viser merknader holdt for hver katalytiske rester i hvert katalytisk sted.

Figur 1.

Oversikt over data presentert for EN CSA-kuratert oppføring. Meta – data beskrivelser som enzym navn og arter samt interne lenker for å finne oppføringer I CSA som deler egenskaper sammen med lenker til eksterne nettressurser vises i en tabell (A). EN 3d-visning (B) viser enzymstrukturen, og markerer hver av de katalytiske stedene (fra en rullegardinmeny) i rødt. En fritekstrapport av den totale reaksjonen og mekanismen er gitt (C) med et reaksjonsdiagram merket opp med grupper konservert på tvers av reaksjons-og bindingsendringer. (D) Viser merknader holdt for hver katalytiske rester i hvert katalytisk sted.Utviklere involvert i prediksjon av proteiner av ukjent funksjon kan bruke det utvidede antall kuraterte oppføringer for å trene og teste metodene som utvikles. I tillegg individuelle brukere kan få tilgang til både kuratert og homologi avledet oppføringer for å få detaljer om katalytiske rester i en struktur av interesse, som har potensial til å være nyttig i utformingen av ytterligere eksperimenter. Brukeropplevelsen har blitt forbedret Ved Hjelp Av BioJS biblioteker (9) som gir EN 3d visning panel samt en merket opp sekvens viewer fremhever katalytiske rester.

SOM en del av en bredere integrering av ressurser, HAR CSA blitt slått sammen Med en søsterdatabase MACiE. Databaseskjemaet FOR DE CSA-relaterte tabellene er vist I Figur 2. CSA er utformet som en relasjonsdatabase ved hjelp av En Typisk Linux, Apache, MySQL og PHP plattform hjulpet Av JavaScript utnytte BioJS biblioteket.

Figur 2.

databaseskjemaet FOR CSA. Relasjoner mellom tabeller vises. Dataene lagres i En MySQL-database.

Figur 2.

databaseskjemaet FOR CSA. Relasjoner mellom tabeller vises. Dataene lagres i En MySQL-database.

INFERRING KATALYTISKE RESTER GJENNOM SEKVENSSAMMENLIGNING

Oppføringer er også annotert ved hjelp av en automatisert sekvenssammenligningsmetode som utnytter de kuraterte oppføringene for å utlede katalytiske rester. 433 proteinsekvenser FRA macie enzyme mechanism database og 911-sekvensene som er unike FOR CSA ble ekstrahert og merket ved hjelp av merknader for sidekjede, hovedkjede, modifiserte, reaktant og tilskuerrester. CSA-homologer I PDB og gjennomgått seksjon Av UniProtKB ble identifisert VED HJELP AV SSEARCH36 (10) med en statistisk signifikansgrense På E<10-6. SSEARCH-justeringer brukte-V-alternativet til å projisere identitet/konservativ / ikke-konservativ status for de justerte annoterte funksjonelle rester Fra MACiE / CSA-sekvensene til de homologe sekvensene i PDB og SwissProt.

oppføringene avledet av homologi, i tillegg til koblingene til eksterne datakilder som finnes i de kuraterte oppføringene, har også en intern kobling til de manuelt kommenterte oppføringene som ble brukt til å utlede katalytiske rester. CSA 2.0 gir en manuelt kuratert ressurs av 968 enzymstrukturer og deres katalytiske steder, inkludert informasjon om den funksjonelle delen av hver katalytisk rest og dens rolle i enzymmekanismen. Bruken av sekvenssammenligninger utvider disse merknadene til ytterligere 32 216 strukturer annotert av homologi, og gir totalt 34 096 annoterte strukturer ut av mulige 49 049 strukturer deponert i PDB som er enzymatiske. Dette utvider i stor grad 177 kuraterte oppføringer og 2608 oppføringer annotert av homology I CSA 1.0. I TILLEGG HAR CSA 2.0 oppføringer for 1189 E. C. tall som dekker alle E. C. klassifisering klasser og underklasser og de fleste underunderklasser (Figur 3).

Figur 3.

E. C. dekning I CSA. Enzymkommisjonens klassifisering av Alle E.C. koder klassifisert Av Enzymkommisjonen gjengitt som et rotfestet tre. Hver hovedklasse er merket med (I) Oksidoreduktaser, (ii) Transferaser, (iii) Hydrolaser, (iv) Lyaser, (v) Isomeraser og (vi) Ligaser. Hvert E. C.-nummer i CSA er farget rødt, med alle hovedklasser og underklasser til stede og de fleste underklasser.

Figur 3.

E. C. dekning I CSA. Enzymkommisjonen klassifisering av Alle E. C. koder klassifisert Av Enzymkommisjonen gjengitt som et rotfestet tre. Hver hovedklasse er merket med (I) Oksidoreduktaser, (ii) Transferaser, (iii) Hydrolaser, (iv) Lyaser, (v) Isomeraser og (vi) Ligaser. Hvert E. C.-nummer i CSA er farget rødt, med alle hovedklasser og underklasser til stede og de fleste underklasser.

ENZYMMEKANISME ONTOLOGI

selv OM csa-og MACiE-ressursene har blitt utviklet noe i tandem og dermed deler en felles datamodell, er det for tiden utfordrende å knytte disse til enzymmerknader i ressurser som UniProtKB på grunn av forskjeller i definisjonene av enzymegenskaper og vokabularene som brukes i beskrivelsen. Selv om beskrivelser og definisjoner av noe av informasjonen i alle tre databasene er gjort i eksisterende ontologier SOM GO (11) og ChEBI (12) ontologi, gifte disse og bruke dem jevnt til alle tre databaser viste seg langt fra trivielt.CSA og dets søsterdatabase, MACiE, bruker et kontrollert ordforråd, Med MACiE som har Et mer detaljert ordforråd da Det fokuserer på enzymer i en mye større dybde for å inkludere grundige beskrivelser av de kjemiske reaksjonstrinnene som utføres. På samme måte fanger den gjennomgåtte delen Av UniProtKB (UniProtKB/Swiss-Prot) også enzymrelaterte data på et bredere proteinsekvensnivå, inkludert informasjon om katalytiske rester. Merknader er laget som både fritekst og ved hjelp av en uavhengig utviklet kontrollert vokabular.

For å løse dette har vi utviklet EMO som bygger på kontrollert vokabular utviklet For MACiE Og CSA og vil bli sendt TIL OBO Støperi (13). Dette vokabularet (Se Supplerende Materiale eller http://purl.bioontology.org/ontology/EMO) ble opprettet for å beskrive de aktive komponentene i enzymets reaksjoner (kofaktorer, aminosyrer og beslektede ligander) og deres roller i reaksjonen. EMO bygger videre på dette ved å formalisere sentrale begreper, og forholdet mellom dem, nødvendig å definere enzymer og deres funksjoner. Dette beskriver ikke bare de generelle egenskapene til et enzym, inkludert E. C.-nummeret( katalytisk aktivitet), 3D-struktur og cellulære steder, men gir også mulighet for detaljert merknad av mekanismen. Denne mekanistiske detalj kan enten være på et bruttonivå (samlet reaksjon bare som fanget I CSA), eller mer detaljert granularitet av trinnene og komponentene som kreves for å påvirke den samlede kjemiske transformasjonen.

EMO tillater mange forskjellige ressurser å bli trukket sammen, selv hvor merknader bare er delvis laget, noe som kan tillate ufullstendig merknad å bli utvidet. Kommunikasjon mellom databaser kan tilrettelegges ved bruk av en slik universell ressurs som kartlegger ulike vilkår til en felles datamodell. Alle merknader AV CSA-kuraterte oppføringer har blitt integrert i kommentarene gitt I UniProtKB.

GENERERE 3D-MALER

Ved hjelp av de nylig kuraterte oppføringene er det mulig å bygge tredimensjonale maler som består av bare de få atomer av de aktive områderester. Alternative resttyper for hver katalytisk rest i malen kan katalogiseres i malen fra tilsvarende posisjoner fra oppføringene avledet av homologi. Dette utvider et sett med 149 maler konstruert FRA CSA 1.0 til totalt 584 maler FRA CSA 2.0. Malene kan brukes Av Jess, en rask og fleksibel algoritme for å søke proteinstrukturer for små grupper av atomer basert på geometriske og kjemiske begrensninger (14), for å søke gjennom nye strukturer for å finne potensielle katalytiske steder. Dette har blitt implementert i en ny SERVER CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Brukere av denne asynkrone tjenesten kan enten laste opp sin egen strukturfil eller be om en deponert struktur (hvis DEN ikke allerede er annotert av CSA) som skal søkes ved hjelp av de nye malene. Resultatene er rangert basert på RMSD og en logg E-verdi. Malen laget fra hver kuratert oppføring kan nås fra relevant CSA oppføring siden samt kollektivt blir gjort tilgjengelig for nedlasting.

KONKLUSJONER

CSA 2.0 gir et nytt moderne grensesnitt til et mye utvidet manuelt kuratert datasett av rester involvert i enzymkatalytiske steder og den funksjonelle rollen de spiller i reaksjonen. En ny metode for pålitelig ekstrapolering av merknader og identifisering av katalytiske rester til homologe strukturer er implementert. I tillegg kan de kuraterte oppføringene brukes til å bygge 3d-maler av katalytiske nettsteder, som igjen kan brukes til å søke nye strukturer for katalytisk nettstedidentifikasjon ved hjelp av en revidert CSS-tjeneste. Videre er det utviklet en ny ontologi for å tillate overføring av merknader knyttet til enzymkatalyse mellom ressurser. Dette har blitt brukt til å inkludere CSA-merknader i UniProtKB Og MACiE.

databasen er tilgjengelig på http://www.ebi.ac.uk/thornton-srv/databases/CSA, MENS CSS-tjenesten kan bli funnet på http://www.ebi.ac.uk/thornton-srv/databases/CSS. Begge er kompatible med de fleste moderne nettlesere. Alle data I CSA er nedlastbare og fritt tilgjengelig for fagmiljøet.

FINANSIERING

interessekonflikt uttalelse. Ingen erklært.

TAKK

forfatterne vil gjerne takke innsatsen til de mange annotatorene som har bidratt til de kuraterte oppføringene i CSA. Vi vil også takke Dr Syed A. Rahman for å levere de merkede reaksjonsdiagrammer.

1

Uniprot Consortium
Oppdatering på aktiviteter Ved Universal Protein Resource (UniProt) i 2013

,

Nukleinsyrer Res.

,

2013

, vol.

41

(s.

D43

D47

2

CT,

Bartlett

,

thornton

. Catalytic Site Atlas: en ressurs av katalytiske steder og rester identifisert i enzymer ved hjelp av strukturelle data ,

Nukleinsyrer Res.

,

2004

, vol.

32

(s.

D129

D133

3

,

du Kan Også Velge mellom følgende kategorier: c

>

Gore
sp

, et al.

PDBe: Protein Data Bank i Europa

,

Nukleinsyrer Res.

,

2012

, vol.

40

(s.

D445

D452

4

,

Andreini

dette er en Av de mest populære variantene av denne typen Produkter Som er Laget For Å Hjelpe Deg Med Å Finne ut hva Som er Riktig For Deg.div>

,

pearson

.

MACiE: utforske mangfoldet av biokjemiske reaksjoner

,

Nukleinsyrer Res.

,

2012

, vol.

40

(s.

D783

D789

5

S

,

Bashton

du kan også bruke denne funksjonen til å laste ned og laste ned en ny versjon av Programmet for å få tilgang til En ny versjon av Programmet .

Små Molekyl Subgraph Detektor (SMSD) verktøysett

,

J. Cheminform.

,

2009

, vol.

1

pg.

12

6

SJELDNE .

PDBsum nye ting

,

Nukleinsyrer Res.

,

2009

, vol.

37

(s.

D355

D359

7

,

Apweiler
r

.

IntEnz, den integrerte relasjonelle enzymdatabasen

,

Nukleinsyrer Res.

,

2004

, vol.

32

(s.

D434

D437

)

8

Enzym Nomenklatur 1992 : anbefalinger fra nomenklaturkomiteen for international union of biochemistry and molecular biology om Nomenklatur og klassifisering av enzymer/forberedt på nc-iubmb av edwin c. webb. Publisert For Den Internasjonale Unionen Av Biokjemi Og Molekylærbiologi Av Academic Press, San Diego

9

,

Garcia
LJ

Del-Toro
N

, et al.

BioJS: En Åpen kildekode JavaScript rammeverk for biologisk datavisualisering

,

Bioinformatikk

,

2013

, vol.

29

(s.

1103

1104

10

,

Pearson

/ div>

wr

.

Følsomhet og selektivitet i proteinstruktur sammenligning

,

Protein Sci.

,

2004

, vol.

13

(s.

773

785

11

,

Dolan

div>

,

sitnikov

div > f , et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

12

J

,

De Matos

div >

M

, Et Al.

chebi referansedatabase og ontologi for biologisk relevant kjemi: forbedringer for 2013

,

Nukleinsyrer Res.

,

2013

, vol.

41

(s.

D456

D463

)

13

C
B

,

Ashburner
M

,

Rosse
C

,

Bard
J

,

Feil
Du

,

Ceusters
Du

,

Goldberg
LJ

,

Eilbeck
K

,

Irland
A

,

Mungall
CJ

, et al.

OBO Støperi: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

Forfatter notater

nåværende adresser: Gemma L. Holiday, Universitetet I California, San Francisco, Boks 2550, 1700 4th Street, San Francisco, ca 94143-2550, usa.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, STORBRITANNIA.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert.