Abstract
inzicht in welke katalytische residuen in een enzym zijn en welke functie ze vervullen is cruciaal voor veel biologiestudies, met name die welke leiden tot nieuwe therapieën en enzyme design. De originele versie van de Catalytic Site Atlas (Csa) (http://www.ebi.ac.uk/thornton-srv/databases/CSA), die in 2004 werd gepubliceerd en die de residuen in enzymkatalyse in experimenteel bepaalde eiwitstructuren catalogiseert, had slechts 177 gecureerde vermeldingen en gebruikte een simplistische benadering om deze annotaties uit te breiden naar homologe enzymstructuren. Hier presenteren wij een nieuwe versie van CSA (Csa 2.0), die het aantal zowel gecureerde (968) als automatisch geannoteerde katalytische plaatsen in enzymstructuren sterk uitbreidt, gebruikend een nieuwe methode voor annotatieoverdracht. De curated ingangen worden gebruikt, samen met de variatie in residustype van de opeenvolgingsvergelijking, om 3D malplaatjes van de katalytische plaatsen te produceren, die op hun beurt kunnen worden gebruikt om katalytische plaatsen in nieuwe structuren te vinden. Om de overdracht van CSA annotaties naar andere bronnen te vergemakkelijken is een nieuwe ontologie ontwikkeld: de ontologie van het Enzymmechanisme, die de overdracht van annotaties naar mechanismen, annotatie en classificatie in enzymen (MACiE) en UniProt Knowledge Base (UniProtKB) middelen heeft toegestaan. Het CSA-databaseschema is opnieuw ontworpen en zowel de CSA-gegevens als de zoekmogelijkheden worden gepresenteerd in een nieuwe moderne webinterface.
inleiding
enzymen vertegenwoordigen ∼45% van de collectieve eiwitproducten van alle genomen die worden gecatalogiseerd door bronnen zoals de Uniprot Knowledge Base (UniProtKB) (1). Als biologische katalysatoren vergemakkelijken zij de vele metabolische processen en wegen die voor het leven kritiek zijn om te bestaan en de nadruk van studies door biologen en chemici meer dan 100 jaar zijn geweest. Zij zijn ook enkele van de belangrijkste doelstellingen in farmaceutische drugontwikkeling, met vele goedgekeurde drugs die handelen om de actie van enzymen te wijzigen betrokken bij ziekteprocessen. Bovendien vormen zij vaak het middelpunt van biotechnologische toepassingen. Gedetailleerde informatie over katalytische residuen en enzym actieve sites zijn essentieel voor het begrijpen van de relatie tussen eiwitstructuur en functies, ontwerp van remmers en enzym ontwerp.
De Catalytic Site Atlas (CSA) (2) werd opgericht om gecureerde annotaties te verschaffen van het kleine aantal sterk geconserveerde residuen die rechtstreeks betrokken zijn bij de katalytische activiteit in enzymen waarvan de structuren zijn gedeponeerd in de Proteïnedatabank (PDB) (3). Deze curated ingangen kunnen op hun beurt worden gebruikt voor het afleiden van katalytische residuen in andere enzymstructuren door middel van homologie, met behulp van een eenvoudige PSIBlast methode.
de oorspronkelijke bron bevatte 177 met de hand geannoteerde vermeldingen en 2608 homologe vermeldingen, en had betrekking op ∼30% van alle EG-nummers in het VOB. We presenteren hier een nieuwe versie van de katalytische Site Atlas-CSA 2.0. We hebben het aantal gecureerde inzendingen aanzienlijk verhoogd tot 968 en implementeren een nieuwe, meer geavanceerde methode voor het overbrengen van de annotaties naar homologe structuren die de robuustheid van annotatieoverdracht verhogen. De uitbreiding van de curated entries maakt ook de toevoeging van nieuwe 3D structurele templates, die zijn gebruikt in een herziening van de Catalytic Site Search service. Bovendien is het databaseschema opnieuw ontworpen en geïntegreerd in een zusterdatabase van enzymmechanismen: de database mechanisme, annotatie en classificatie in enzymen (MACiE) (4). We hebben ook een nieuwe ontologie ontwikkeld, de Enzyme Mechanism Ontology (EMO), die de integratie van CSA-informatie in zowel MACiE-als UniProtKB-datastructuren mogelijk maakt en kan worden gebruikt als een gecontroleerde woordenschat voor het beschrijven van aspecten van eiwitsequentie en-structuur met scheikundige en mechanistische termen over bronnen heen.
CSA-gehalte
de belangrijkste gegevens in de CSA zijn de eiwitresiduen van experimenteel bepaalde atomaire structuren die als katalytisch worden gedefinieerd. Residuen worden als katalytisch aangemerkt door aan een van de volgende criteria te voldoen: i) directe betrokkenheid bij het katalytische mechanisme; ii) wijziging van de pKA van een ander residu of watermolecuul dat rechtstreeks betrokken is bij het katalytische mechanisme; iii) stabilisatie van een overgangstoestand of tussenproduct; en iv) activering van een substraat. Merk op dat het geen residu ‘ s bevat die uitsluitend betrokken zijn bij ligandbinding en dus verschilt van andere bronnen, zoals UniProtKB-annotaties. Inzendingen worden gedaan met betrekking tot de gedeponeerde VOB-structuur, met de mogelijkheid om veel katalytische sites binnen een enkele vermelding.
katalytische residuannotaties worden gemaakt door handmatige curatie of door sequentievergelijking. De handmatig te annoteren vermeldingen worden uit het VOB gekozen op basis van de kwaliteit van de structuur en het beschikbare experimentele bewijs van de gekatalyseerde reactie. Dit omvat details van het katalytische mechanisme, waar mogelijk ook gevalideerd door experimentele gegevens. Annotatoren geven een korte vrijtekstbeschrijving van het enzym en een meer gedetailleerde samenvatting van het enzymmechanisme. De reactie zelf wordt ook gepresenteerd en gemarkeerd om de veranderingen in moleculaire substructuren en bond orde/valentie veranderingen te tonen met behulp van een atoom–atoom matching algoritme geïmplementeerd in smsd (smsd) (5). Voor elk residu in elke katalytische locatie wordt het functionele deel van het residu geregistreerd en de functie en het doel ervan beschreven aan de hand van een gecontroleerde woordenschat en een korte vrijtekstbeschrijving van hoe het residu de functie uitvoert. Evidence tags bieden een directe link naar de literatuur waaruit de annotaties werden afgeleid. Voor elke katalytische plaats kan een onderzoek worden uitgevoerd die alle andere katalytische plaatsen in de CSA retourneren die dezelfde katalytische residuen hebben gegroepeerd door hun E. C.-aantallen. Daarnaast worden hyperlinks naar externe bronnen, zoals PDBSum (6) en IntEnz (7), verstrekt. Interne links naar andere vermeldingen met hetzelfde EG-nummer (8) of sequentienummers of PDB-identificatoren worden gemaakt. In Figuur 1 wordt een overzicht gegeven van de soorten gegevens die voor een vermelding worden weergegeven.
overzicht van gegevens gepresenteerd voor een CSA-curated entry. Meta-data descriptoren zoals enzym naam en soort, evenals interne links naar items te vinden in de CSA die eigenschappen delen samen met links naar externe web resources worden weergegeven in een tabel (A). Een 3D viewer (B) toont de enzymstructuur, waarbij elk van de katalytische locaties (uit een pull-down menu) in rood wordt gemarkeerd. Een vrij-tekstrapport van de algemene reactie en het mechanisme worden verstrekt (C) met een reactiediagram dat omhoog met groepen wordt gemarkeerd die over de reactie en bindingsveranderingen worden behouden. D) de annotaties voor elke katalytische residuen in elke katalytische locatie.
overzicht van gegevens gepresenteerd voor een CSA-curated entry. Meta-data descriptoren zoals enzym naam en soort, evenals interne links naar items te vinden in de CSA die eigenschappen delen samen met links naar externe web resources worden weergegeven in een tabel (A). Een 3D viewer (B) toont de enzymstructuur, waarbij elk van de katalytische locaties (uit een pull-down menu) in rood wordt gemarkeerd. Een vrij-tekstrapport van de algemene reactie en het mechanisme worden verstrekt (C) met een reactiediagram dat omhoog met groepen wordt gemarkeerd die over de reactie en bindingsveranderingen worden behouden. D) de annotaties voor elke katalytische residuen in elke katalytische locatie.
ontwikkelaars die betrokken zijn bij de voorspelling van eiwitten met een onbekende functie kunnen het uitgebreide aantal gecureerde items gebruiken om de ontwikkelde methodologieën te trainen en te testen. Bovendien kunnen individuele gebruikers toegang krijgen tot zowel gecureerde als homologie afgeleide inzendingen om details van de katalytische residuen in een structuur van belang te krijgen, die het potentieel heeft om nuttig te zijn in het ontwerp van verdere experimenten. De gebruikerservaring is verbeterd met behulp van BioJS-bibliotheken (9) die een 3D-weergavepaneel en een gemarkeerd-up sequence viewer markeren van de katalytische residuen bieden.
als onderdeel van een bredere integratie van bronnen, is de CSA samengevoegd met een zusterdatabase MACiE. Het databaseschema voor de CSA-gerelateerde tabellen is weergegeven in Figuur 2. De CSA is ontworpen als een relationele database met behulp van een typische Linux, Apache, MySQL en PHP platform geholpen door JavaScript gebruik te maken van de BioJS bibliotheek.
het databaseschema voor de CSA. Relaties tussen tabellen worden weergegeven. De gegevens worden opgeslagen in een MySQL database.
het databaseschema voor de CSA. Relaties tussen tabellen worden weergegeven. De gegevens worden opgeslagen in een MySQL database.
het afleiden van katalytische residuen door SEQUENTIEVERGELIJKING
Entries worden ook geannoteerd met behulp van een geautomatiseerde sequentievergelijkingsmethode die gebruik maakt van de samengestelde entries om katalytische residuen af te leiden. 433 de eiwitopeenvolgingen van het MACIE-gegevensbestand van het enzym mechanisme en de 911 unieke opeenvolgingen aan Csa werden gehaald en geëtiketteerd gebruikend annotaties voor zij-keten, hoofd-keten, gewijzigde, reactant en toeschouwer residuen. Csa-homologen in het PDB en het herziene gedeelte van UniProtKB werden geïdentificeerd met behulp van SSEARCH36 (10) met een statistische significantiedrempel van E<10-6. SSEARCH alignments gebruikte de optie-V om de identiteit/conservatieve/niet-conservatieve status van de uitgelijnde geannoteerde functionele residu ‘ s van de macie/CSA sequenties naar de homologe sequenties in de PDB en SwissProt te projecteren.
de door homologie afgeleide vermeldingen hebben, naast de links naar externe gegevensbronnen in de gecureerde vermeldingen, ook een interne link naar de handmatig geannoteerde vermeldingen die werden gebruikt om katalytische residuen af te leiden. CSA 2.0 biedt een handmatig samengesteld bron van 968 enzymstructuren en hun katalytische plaatsen met inbegrip van informatie over het functionele deel van elk katalytisch residu en zijn rol in het enzymmechanisme. Het gebruik van sequentievergelijkingen breidt deze annotaties uit tot nog eens 32 216 structuren geannoteerd door homologie, met een totaal van 34 096 geannoteerde structuren van mogelijke 49 049 structuren gedeponeerd in de PDB die enzymatisch zijn. Dit breidt de 177 curated inzendingen en 2608 inzendingen annotated door homologie in Csa 1.0. Daarnaast bevat de CSA 2.0 vermeldingen voor 1189 E. C.-nummers die alle E. C.-classificatieklassen en-subklassen en de meeste subklassen (Figuur 3) omvatten.
E. C. dekking in de CSA. De Enzymcommissie classificatie van alle E.C. codes die door de Enzymcommissie zijn geclassificeerd als een wortelboom. Elke belangrijke klasse wordt geëtiketteerd met (I) Oxidoreductasen, (ii) transferasen, (iii) hydrolasen, (iv) Lyasen, (v) Isomerasen en (vi) ligasen. Elk E. C. nummer in de CSA is rood gekleurd, met alle grote klassen en subklassen aanwezig en de meeste subklassen.
E. C. dekking in de CSA. De Enzymcommissie classificatie van alle E. C.-codes die door de Enzymcommissie zijn geclassificeerd als een wortelboom. Elke belangrijke klasse wordt geëtiketteerd met (I) Oxidoreductasen, (ii) transferasen, (iii) hydrolasen, (iv) Lyasen, (v) Isomerasen en (vi) ligasen. Elk E. C. nummer in de CSA is rood gekleurd, met alle grote klassen en subklassen aanwezig en de meeste subklassen.
ENZYME MECHANISM ONTOLOGY
hoewel de CSA-en MACiE-bronnen enigszins parallel zijn ontwikkeld en dus een gemeenschappelijk gegevensmodel delen, is het momenteel moeilijk om deze te koppelen aan enzymannotaties in bronnen zoals UniProtKB vanwege verschillen in de definities van enzymeigenschappen en de woordenlijsten die in hun beschrijving worden gebruikt. Hoewel beschrijvingen en definities van sommige informatie in alle drie databases zijn gemaakt in bestaande ontologieën zoals GO (11) en de ChEBI (12) ontologie, bleken deze te combineren en ze uniform toe te passen op alle drie databases verre van triviaal.
het CSA en zijn zusterdatabase, MACiE, maken gebruik van een gecontroleerde woordenschat, waarbij MACiE een meer gedetailleerde woordenschat heeft omdat het zich veel dieper richt op enzymen om grondige beschrijvingen van de uitgevoerde chemische reactiestappen op te nemen. Evenzo worden in het beoordeelde gedeelte van de UniProtKB (UniProtKB/Swiss-Prot) ook enzym-gerelateerde gegevens opgenomen op een breder niveau van de eiwitsequentie, waaronder informatie over katalytische residuen. Annotaties worden gemaakt als zowel vrije tekst als met behulp van een onafhankelijk ontwikkelde gecontroleerde woordenschat.
om dit aan te pakken hebben we de EMO ontwikkeld die voortbouwt op de gecontroleerde woordenschat ontwikkeld voor MACiE en de CSA en zal worden voorgelegd aan de Obo gieterij (13). Deze woordenschat (zie aanvullend materiaal of http://purl.bioontology.org/ontology/EMO) werd gecreëerd om de actieve componenten van de reacties van het enzym (cofactoren, aminozuren en verwante liganden) en hun rol in de reactie te beschrijven. EMO bouwt hierop voort door sleutelconcepten en de onderlinge relaties te formaliseren die nodig zijn om enzymen en hun functies te definiëren. Dit beschrijft niet alleen de algemene eigenschappen van een enzym, met inbegrip van het E. C. Aantal (katalytische activiteit), 3D structuur en cellulaire plaatsen, maar staat ook voor de gedetailleerde annotatie van het mechanisme toe. Dit mechanistische detail kan ofwel op een bruto niveau (totale reactie alleen zoals vastgelegd in de CSA), of de meer gedetailleerde granulariteit van de stappen en componenten die nodig zijn om de totale chemische transformatie.
EMO maakt het mogelijk om veel verschillende bronnen samen te trekken, zelfs wanneer annotaties slechts gedeeltelijk worden gemaakt, waardoor onvolledige annotatie kan worden uitgebreid. Communicatie tussen databases kan worden vergemakkelijkt door het gebruik van een dergelijke universele bron die ongelijksoortige termen toewijst aan een gemeenschappelijk gegevensmodel. Alle annotaties van CSA-curated entries zijn geïntegreerd in de annotaties in UniProtKB.
3D-sjablonen genereren
met behulp van de nieuw samengestelde items is het mogelijk om driedimensionale sjablonen te bouwen die bestaan uit slechts de weinige atomen van de actieve siteresiduen. Alternatieve residutypen voor elk katalytisch residu in de template kunnen in de template worden gecatalogiseerd op basis van de equivalente posities van de vermeldingen afgeleid door homologie. Dit breidt een set van 149 sjablonen opgebouwd uit Csa 1.0 tot een totaal van 584 sjablonen van CSA 2.0. De templates kunnen worden gebruikt door Jess, een snel en flexibel algoritme voor het zoeken naar eiwitstructuren voor kleine groepen atomen op basis van geometrische en chemische beperkingen (14), om door nieuwe structuren te zoeken om potentiële katalytische sites te vinden. Dit is geïmplementeerd in een nieuwe server CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Gebruikers van deze asynchrone dienst kunnen ofwel hun eigen structuurbestand uploaden of een gedeponeerde structuur aanvragen (als deze nog niet is geannoteerd door de CSA) om te worden doorzocht met behulp van de nieuwe sjablonen. De resultaten worden gerangschikt op basis van de RMSD en een log e-waarde. De sjabloon gemaakt van elke gecureerde vermelding kan worden benaderd vanuit de relevante Csa-invoerpagina en gezamenlijk beschikbaar worden gesteld voor download.
conclusies
CSA 2.0 biedt een nieuwe moderne interface naar een veel uitgebreidere handmatig samengestelde dataset van residuen die betrokken zijn bij enzymkatalytische sites en de functionele rol die zij spelen in de reactie. Een nieuwe methode voor het betrouwbaar extrapoleren van de annotaties en identificatie van katalytische residuen naar homologe structuren is geïmplementeerd. Daarnaast kunnen de gecureerde inzendingen worden gebruikt om 3D-sjablonen van de katalytische sites te bouwen, die op hun beurt kunnen worden gebruikt om nieuwe structuren voor katalytische site-identificatie te zoeken met behulp van een herziene CSS-dienst. Verder is een nieuwe ontologie ontwikkeld om de overdracht van annotaties met betrekking tot enzymkatalyse tussen hulpbronnen mogelijk te maken. Dit is gebruikt om Csa-annotaties in UniProtKB en MACiE op te nemen.
de database is beschikbaar op http://www.ebi.ac.uk/thornton-srv/databases/CSA, terwijl de CSS-service te vinden is op http://www.ebi.ac.uk/thornton-srv/databases/CSS. Beide zijn compatibel met de meeste moderne webbrowsers. Alle gegevens in het CSA zijn downloadbaar en vrij beschikbaar voor de academische gemeenschap.
financiering
verklaring inzake belangenconflicten. Geen verklaard.
dankbetuigingen
De auteurs willen graag de inspanningen van de vele annotators bedanken die hebben bijgedragen aan de gecureerde items in de CSA. We willen ook Dr. Syed A. Rahman bedanken voor het leveren van de gemarkeerde reactiediagrammen.
,
,
, vol.
(pg.
)
,
,
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
.
,
,
, vol.
(pg.
)
,
,
,
,
.
,
,
, vol.
pg.
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
Auteursnotities
huidige adressen: Gemma L. Holiday, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.