Abstrakt
förståelse vilka är katalytiska rester i ett enzym och vilken funktion de utför är avgörande för många biologiska studier, särskilt de som leder till ny terapi och enzymdesign. Den ursprungliga versionen av Catalytic Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) som publicerades 2004, som katalogiserar rester som är involverade i enzymkatalys i experimentellt bestämda proteinstrukturer, hade endast 177 kuraterade poster och använde ett förenklat tillvägagångssätt för att utvidga dessa anteckningar till homologa enzymstrukturer. Här presenterar vi en ny version av CSA (CSA 2.0), som kraftigt utökar antalet både kuraterade (968) och automatiskt annoterade katalytiska platser i enzymstrukturer, med användning av en ny metod för annotationsöverföring. De kuraterade posterna används, tillsammans med variationen i resttyp från sekvensjämförelsen, för att generera 3D-mallar för de katalytiska platserna, som i sin tur kan användas för att hitta katalytiska platser i nya strukturer. För att underlätta överföringen av CSA-anteckningar till andra resurser har en ny ontologi utvecklats: Enzymmekanismens ontologi, som har tillåtit överföring av anteckningar till mekanism, annotering och klassificering i enzymer (MACiE) och UniProt Knowledge Base (UniProtKB) resurser. CSA – databasschemat har omformats och både CSA-data och sökfunktioner presenteras i ett nytt modernt webbgränssnitt.
Inledning
enzymer representerar 45% av de kollektiva proteinprodukterna i alla genom som katalogiseras av resurser som UniProt Knowledge Base (UniProtKB) (1). Som biologiska katalysatorer underlättar de många metaboliska processer och vägar som är kritiska för att livet ska existera och har varit i fokus för studier av biologer och kemister i över 100 år. De är också några av de främsta målen i läkemedelsutveckling, med många godkända läkemedel som verkar för att modifiera verkan av enzymer som är inblandade i sjukdomsprocesser. Dessutom är de ofta i fokus för biotekniska tillämpningar. Detaljerad information om katalytiska rester och enzymaktiva platser är avgörande för att förstå förhållandet mellan proteinstruktur och funktioner, design av hämmare och enzymdesign.
Catalytic Site Atlas (Csa) (2) inrättades för att tillhandahålla samlade anteckningar av det lilla antalet mycket konserverade rester som är direkt involverade i den katalytiska aktiviteten i enzymer vars strukturer har deponerats i Proteindatabanken (PDB) (3). Dessa kurerade poster kan i sin tur användas för att härleda katalytiska rester i andra enzymstrukturer genom homologi, med hjälp av en enkel PSIBlast-metod.
den ursprungliga resursen innehöll 177 handannoterade poster och 2608 homologa poster och täckte 30% av alla EG-nummer som hittades i det preliminära budgetförslaget. Vi presenterar här en ny version av den katalytiska platsen Atlas—CSA 2.0. Vi har ökat antalet kurerade poster avsevärt till 968 och implementerat en ny mer sofistikerad metod för att överföra anteckningarna till homologa strukturer som ökar robustheten i annoteringsöverföring. Utvidgningen av kuraterade poster tillåter också tillägg av nya 3D-strukturella mallar, som har använts i en revidering av den katalytiska Platssökningstjänsten. Dessutom har databasschemat omformats och integrerats i en systerdatabas med enzymmekanismer: mekanismen, annotering och klassificering i enzymer (MACiE) databas (4). Vi har också utvecklat en ny ontologi, Enzymmekanismen ontologi (EMO), som möjliggör integration av CSA-information i både MACiE-och UniProtKB-datastrukturer och kan användas som ett kontrollerat ordförråd för att beskriva aspekter av proteinsekvens och struktur med Kemi och mekanistiska termer över resurser.
CSA-innehåll
principdata som finns i CSA är proteinrester från experimentellt bestämda atomstrukturer som definieras som katalytiska. Restsubstanser betecknas som katalytiska genom att uppfylla något av följande kriterier: i) direkt involvering i den katalytiska mekanismen, ii) ändrar pKA för en annan rest-eller vattenmolekyl som är direkt involverad i den katalytiska mekanismen, iii) stabilisering av ett övergångstillstånd eller intermediär och iv) aktivering av ett substrat. Observera att det inte innehåller rester som endast är involverade i ligandbindning och därmed skiljer sig från andra resurser, såsom UniProtKB-anteckningar. Inlägg görs med avseende på den deponerade PDB-strukturen, med potential att ha många katalytiska platser inom en enda post.
katalytiska restnoteringar görs antingen genom manuell curation eller genom sekvensjämförelse. Poster som ska antecknas manuellt väljs från PDB baserat på strukturens kvalitet och tillgängliga experimentella bevis på reaktionen katalyserad. Detta inkluderar detaljer om den katalytiska mekanismen, även validerad med experimentella data där det är möjligt. Annotatorer ger en kort fritextbeskrivning av enzymet samt en mer detaljerad sammanfattning av enzymmekanismen. Reaktionen i sig presenteras också och markeras för att visa förändringarna i molekylära understrukturer och bindningsordning/valensförändringar med hjälp av en atom–atom-matchningsalgoritm implementerad i smsd (smsd) (5). För varje rest i varje katalytisk plats registreras den funktionella delen av återstoden samt dess funktion och mål beskrivs med hjälp av en kontrollerad vokabulär och en kort fritextbeskrivning av hur återstoden utför funktionen. Bevistaggar ger en direkt länk till litteraturen från vilken anteckningarna härleddes. För varje katalytisk plats kan en sökning utföras som returnerar alla andra katalytiska platser i CSA som har samma katalytiska rester grupperade efter deras E. C.-nummer. Dessutom tillhandahålls hyperlänkar till externa resurser, såsom PDBSum (6) och IntEnz (7). Interna Länkar till andra poster som delar samma E. C.-nummer (8) eller sekvensanslutningsnummer eller PDB-identifierare görs. En sammanfattning av de typer av data som visas för en post ges i Figur 1.
översikt över data som presenteras för en CSA-kurerad post. Metadatabeskrivningar som enzymnamn och arter samt interna länkar för att hitta poster i CSA som delar egenskaper tillsammans med länkar till externa webbresurser visas i en tabell (A). En 3D-tittare (B) visar enzymstrukturen och markerar var och en av de katalytiska platserna (från en rullgardinsmeny) i rött. En fritextrapport av den totala reaktionen och mekanismen tillhandahålls (C) med ett reaktionsdiagram markerat med grupper bevarade över reaktions-och bindningsförändringarna. D) visar anteckningarna för varje katalytisk restprodukt på varje katalytisk plats.
översikt över data som presenteras för en CSA-kurerad post. Metadatabeskrivningar som enzymnamn och arter samt interna länkar för att hitta poster i CSA som delar egenskaper tillsammans med länkar till externa webbresurser visas i en tabell (A). En 3D-tittare (B) visar enzymstrukturen och markerar var och en av de katalytiska platserna (från en rullgardinsmeny) i rött. En fritextrapport av den totala reaktionen och mekanismen tillhandahålls (C) med ett reaktionsdiagram markerat med grupper bevarade över reaktions-och bindningsförändringarna. D) visar anteckningarna för varje katalytisk restprodukt på varje katalytisk plats.
utvecklare som är involverade i förutsägelsen av proteiner med okänd funktion kan använda det utökade antalet kurerade poster för att träna och testa de metoder som utvecklas. Dessutom kan enskilda användare få tillgång till både kurerade och homologiska härledda poster för att få detaljer om de katalytiska resterna i en struktur av intresse, vilket har potential att vara användbart vid utformning av ytterligare experiment. Användarupplevelsen har förbättrats med hjälp av BioJS-bibliotek (9) som ger en 3D-visningspanel samt en markerad sekvensvisare som markerar de katalytiska resterna.
som en del av en bredare integration av resurser har CSA sammanfogats med en systerdatabas MACiE. Databasschemat för Csa-relaterade tabeller visas i Figur 2. CSA är utformad som en relationsdatabas med en typisk Linux -, Apache -, MySQL-och PHP-plattform med hjälp av JavaScript som använder BioJS-biblioteket.
databasschemat för CSA. Relationer mellan tabeller visas. Uppgifterna lagras i en MySQL-databas.
databasschemat för CSA. Relationer mellan tabeller visas. Uppgifterna lagras i en MySQL-databas.
härleda katalytiska rester genom SEKVENSJÄMFÖRELSE
poster kommenteras också med hjälp av en automatiserad sekvensjämförelsesmetod som använder de kuraterade posterna för att härleda katalytiska rester. 433-proteinsekvenser från macie-enzymmekanismens databas och de 911-sekvenserna som är unika för CSA extraherades och märktes med hjälp av anteckningar för sidokedja, huvudkedja, modifierad, reaktant och åskådarrester. Csa-homologer i PDB och granskade avsnittet av UniProtKB identifierades med SSEARCH36 (10) med en statistisk signifikanströskel på E<10-6. SSEARCH alignments använde – v-alternativet för att projicera identiteten/konservativ/icke-konservativ status för de inriktade annoterade funktionella resterna från MACiE/CSA-sekvenserna till de homologa sekvenserna i PDB och SwissProt.
posterna härledda av homologi, förutom länkarna till externa datakällor som finns i de kuraterade posterna, har också en intern länk till de manuellt kommenterade posterna som användes för att härleda katalytiska rester. CSA 2.0 tillhandahåller en manuellt kurerad resurs av 968 enzymstrukturer och deras katalytiska platser inklusive information om den funktionella delen av varje katalytisk rest och dess roll i enzymmekanismen. Användningen av sekvensjämförelser utvidgar dessa anteckningar till ytterligare 32 216 strukturer annoterade av homologi, vilket ger totalt 34 096 annoterade strukturer av möjliga 49 049 strukturer deponerade i PDB som är enzymatiska. Detta utökar kraftigt de 177 kuraterade posterna och 2608 poster som kommenteras av homology i CSA 1.0. Dessutom har CSA 2.0 poster för 1189 EC-nummer som täcker alla EC-klassificeringsklasser och underklasser och de flesta underklasser (Figur 3).
E. C. täckning i CSA. Enzymkommissionens klassificering av alla E.C. koder som klassificeras av Enzymkommissionen återges som ett rotat träd. Varje huvudklass är märkt med (i) oxidoreduktaser, (ii) transferaser, (iii) hydrolaser, (iv) Lyaser, (v) Isomeraser och (vi) ligaser. Varje E. C.-nummer i CSA är färgat rött, med alla större klasser och underklasser närvarande och de flesta underunderklasser.
E. C. täckning i CSA. Enzymkommissionens klassificering av alla E. C.-koder som klassificeras av Enzymkommissionen återges som ett rotat träd. Varje huvudklass är märkt med (i) oxidoreduktaser, (ii) transferaser, (iii) hydrolaser, (iv) Lyaser, (v) Isomeraser och (vi) ligaser. Varje E. C.-nummer i CSA är färgat rött, med alla större klasser och underklasser närvarande och de flesta underunderklasser.
ENZYMMEKANISM ontologi
även om Csa-och macie-resurserna har utvecklats något i tandem och därmed delar en gemensam datamodell, är det för närvarande utmanande att länka dessa till enzymanteckningar i resurser som UniProtKB på grund av skillnader i definitionerna av enzymegenskaper och vokabulärerna som används i deras beskrivning. Även om beskrivningar och definitioner av en del av informationen i alla tre databaserna görs i befintliga ontologier som GO (11) och ChEBI (12) ontologi, att gifta sig med dessa och tillämpa dem enhetligt på alla tre databaserna visade sig vara långt ifrån triviala.
CSA och dess systerdatabas, MACiE, använder ett kontrollerat ordförråd, med MACiE som har ett mer detaljerat ordförråd eftersom det fokuserar på enzymer på ett mycket större djup för att inkludera noggranna beskrivningar av de kemiska reaktionsstegen som utförts. På samma sätt fångar den granskade delen av UniProtKB (UniProtKB/Swiss-Prot) också enzymrelaterade data på en bredare proteinsekvensnivå, inklusive information om katalytiska rester. Anteckningar görs både som fritext och med hjälp av ett självständigt utvecklat kontrollerat ordförråd.
för att ta itu med detta har vi utvecklat EMO som bygger på det kontrollerade ordförrådet som utvecklats för MACiE och CSA och kommer att skickas till OBO Foundry (13). Denna vokabulär (se kompletterande Material eller http://purl.bioontology.org/ontology/EMO) skapades för att beskriva de aktiva komponenterna i enzymets reaktioner (kofaktorer, aminosyror och besläktade ligander) och deras roller i reaktionen. EMO bygger på detta genom att formalisera nyckelbegrepp, och relationerna mellan dem, som är nödvändiga för att definiera enzymer och deras funktioner. Detta beskriver inte bara de allmänna egenskaperna hos ett enzym, inklusive E. C.-talet (katalytisk aktivitet), 3D-struktur och cellulära platser, men möjliggör också en detaljerad anteckning av mekanismen. Denna mekanistiska detalj kan vara antingen på en bruttonivå (övergripande reaktion endast som fångad i CSA) eller den mer detaljerade granulariteten hos de steg och komponenter som krävs för att åstadkomma den övergripande kemiska omvandlingen.
EMO tillåter att många olika resurser dras ihop, även om anteckningar endast är delvis gjorda, vilket kan möjliggöra att ofullständig anteckning utvidgas. Kommunikation mellan databaser kan underlättas genom användning av en sådan universell resurs som kartlägger olika termer till en gemensam datamodell. Alla anteckningar av CSA-curated poster har integrerats i anteckningarna i UniProtKB.
generera 3D-mallar
med hjälp av de nyligen kuraterade posterna är det möjligt att bygga tredimensionella mallar som består av bara några atomer av de aktiva platsresterna. Alternativa resttyper för varje katalytisk rest i mallen kan katalogiseras i mallen från ekvivalenta positioner från posterna härledda genom homologi. Detta utökar en uppsättning av 149 mallar konstruerade från CSA 1.0 till totalt 584 mallar från CSA 2.0. Mallarna kan användas av Jess, en snabb och flexibel algoritm för att söka proteinstrukturer för små grupper av atomer baserade på geometriska och kemiska begränsningar (14), för att söka igenom nya strukturer för att hitta potentiella katalytiska platser. Detta har implementerats i en ny server CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Användare av denna asynkrona tjänst kan antingen ladda upp sin egen strukturfil eller begära en deponerad struktur (om den inte redan har kommenterats av CSA) som ska sökas med de nya mallarna. Resultaten rankas baserat på RMSD och en logg E-värde. Mallen från varje kuraterad post kan nås från relevant Csa-ingångssida samt kollektivt göras tillgänglig för nedladdning.
slutsatser
CSA 2.0 ger ett nytt modernt gränssnitt till en mycket utökad manuellt kurerad dataset av rester som är involverade i enzymkatalytiska platser och den funktionella roll de spelar i reaktionen. En ny metod för att på ett tillförlitligt sätt extrapolera anteckningarna och identifiera katalytiska rester till homologa strukturer har implementerats. Dessutom kan de kuraterade posterna användas för att bygga 3D-mallar för de katalytiska platserna, som i sin tur kan användas för att söka nya strukturer för katalytisk webbplatsidentifiering med hjälp av en reviderad CSS-tjänst. Dessutom har en ny ontologi utvecklats för att möjliggöra överföring av anteckningar relaterade till enzymkatalys mellan resurser. Detta har använts för att inkludera Csa-anteckningar i UniProtKB och MACiE.
databasen finns på http://www.ebi.ac.uk/thornton-srv/databases/CSA, medan CSS-tjänsten finns på http://www.ebi.ac.uk/thornton-srv/databases/CSS. Båda är kompatibla med de flesta moderna webbläsare. Alla data i CSA är nedladdningsbara och fritt tillgängliga för det akademiska samfundet.
finansiering
intressekonflikt uttalande. Ingen deklarerad.
bekräftelser
författarna vill tacka ansträngningarna från de många annotatorerna som har bidragit till de kuraterade posterna i CSA. Vi vill också tacka Dr Syed A. Rahman för att leverera de markerade reaktionsdiagrammen.
,
,
, vol.
(pg.
–
)
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
, vol.
(pg.
–
)
,
,
,
,
.
,
,
, vol.
pg.
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
.
,
,
, vol.
(pg.
–
)
,
div>,
,
,
,
div>,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
författare anteckningar
nuvarande adresser: Gemma L. Holiday, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Storbritannien.