Il Sito Catalitico dell’Atlante 2.0: la catalogazione di siti catalitici e residui identificati in enzimi

Abstract

Capire quali sono i residui catalitici in un enzima e della funzione che essi svolgono è fondamentale per molti studi di biologia, in particolare quelle che conducono a nuove terapie e l’enzima di design. La versione originale del Catalytic Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) pubblicata nel 2004, che cataloga i residui coinvolti nella catalisi enzimatica in strutture proteiche determinate sperimentalmente, aveva solo 177 voci curate e impiegava un approccio semplicistico per espandere queste annotazioni a strutture enzimatiche omologhe. Qui presentiamo una nuova versione del CSA (CSA 2.0), che espande notevolmente il numero di siti catalitici sia curati (968) che annotati automaticamente nelle strutture enzimatiche, utilizzando un nuovo metodo per il trasferimento di annotazioni. Le voci curate vengono utilizzate, insieme alla variazione del tipo di residuo dal confronto delle sequenze, per generare modelli 3D dei siti catalitici, che a loro volta possono essere utilizzati per trovare siti catalitici in nuove strutture. Per facilitare il trasferimento di annotazioni CSA ad altre risorse è stata sviluppata una nuova ontologia: l’ontologia del meccanismo Enzimatico, che ha permesso il trasferimento di annotazioni a Meccanismo, annotazione e classificazione nelle risorse Enzimatiche (MACiE) e UniProt Knowledge Base (UniProtKB). Lo schema del database CSA è stato riprogettato e sia i dati CSA che le funzionalità di ricerca sono presentati in una nuova interfaccia web moderna.

INTRODUZIONE

Gli enzimi rappresentano ∼il 45% dei prodotti proteici collettivi di tutti i genomi catalogati da risorse come l’UniProt Knowledge Base (UniProtKB) (1). Come catalizzatori biologici facilitano i molti processi metabolici e percorsi che sono fondamentali per la vita di esistere e sono stati al centro di studi da biologi e chimici per oltre 100 anni. Sono anche alcuni degli obiettivi principali nello sviluppo di farmaci farmaceutici, con molti farmaci approvati che agiscono per modificare l’azione degli enzimi implicati nei processi patologici. Inoltre sono spesso il punto focale per le applicazioni biotecnologiche. Informazioni dettagliate sui residui catalitici e sui siti attivi degli enzimi sono essenziali per comprendere la relazione tra struttura e funzioni delle proteine, la progettazione degli inibitori e la progettazione degli enzimi.

Il Catalytic Site Atlas (CSA) (2) è stato istituito per fornire annotazioni curate del piccolo numero di residui altamente conservati che sono direttamente coinvolti nell’attività catalitica in enzimi le cui strutture sono state depositate nella Protein Data Bank (PDB) (3). Queste voci curate possono a loro volta essere utilizzate per dedurre residui catalitici in altre strutture enzimatiche attraverso l’omologia, utilizzando un semplice metodo PSIBlast.

La risorsa originale conteneva 177 voci annotate a mano e 2608 voci omologhe, e copriva ∼30% di tutti i numeri CE trovati in PDB. Vi presentiamo qui una nuova versione del sito catalitico Atlas-CSA 2.0. Abbiamo aumentato significativamente il numero di voci curate a 968 e implementiamo un nuovo metodo più sofisticato per trasferire le annotazioni a strutture omologhe aumentando la robustezza del trasferimento di annotazioni. L’espansione delle voci curate consente anche l’aggiunta di nuovi modelli strutturali 3D, che sono stati utilizzati in una revisione del servizio di ricerca del sito catalitico. Inoltre lo schema del database è stato riprogettato, integrandolo in un database gemello di meccanismi enzimatici: il meccanismo, l’annotazione e la classificazione nel database degli enzimi (MACiE) (4). Abbiamo anche sviluppato una nuova ontologia, l’Enzyme Mechanism Ontology (EMO), che consente l’integrazione delle informazioni CSA nelle strutture dati MACiE e UniProtKB e può essere utilizzata come vocabolario controllato per descrivere aspetti della sequenza e della struttura delle proteine con termini chimici e meccanicistici tra le risorse.

CONTENUTO CSA

I dati di principio contenuti nel CSA sono i residui proteici provenienti da strutture atomiche determinate sperimentalmente che sono definite catalitiche. I residui sono designati come catalitici soddisfacendo uno dei seguenti criteri: i) Coinvolgimento diretto nel meccanismo catalitico; ii) Altera il pKa di un altro residuo o molecola d’acqua direttamente coinvolta nel meccanismo catalitico; iii) Stabilizzazione di uno stato di transizione o intermedio; e iv) Attivazione di un substrato. Si noti che non include i residui che sono coinvolti esclusivamente nel legame del ligando e quindi differisce da altre risorse, come le annotazioni UniProtKB. Le voci sono fatte rispetto alla struttura PDB depositata, con il potenziale di avere molti siti catalitici all’interno di una singola voce.

Le annotazioni dei residui catalitici vengono effettuate mediante curation manuale o confronto di sequenze. Le voci da annotare manualmente sono scelte dal PDB in base alla qualità della struttura e alle prove sperimentali disponibili della reazione catalizzata. Ciò include dettagli sul meccanismo catalitico, convalidati anche da dati sperimentali, ove possibile. Gli annotatori forniscono una breve descrizione a testo libero dell’enzima e una sintesi più dettagliata del meccanismo enzimatico. La reazione stessa viene anche presentata e contrassegnata per mostrare i cambiamenti nelle sottostrutture molecolari e i cambiamenti di ordine/valenza del legame utilizzando un algoritmo di corrispondenza atomo–atomo implementato in small molecule subgraph detector (SMSD) (5). Per ciascun residuo in ciascun sito catalitico viene registrata la parte funzionale del residuo nonché la sua funzione e il suo obiettivo descritti utilizzando un vocabolario controllato e una breve descrizione a testo libero di come il residuo svolge la funzione. I tag Evidence forniscono un collegamento diretto alla letteratura da cui derivano le annotazioni. Per ogni sito catalitico è possibile eseguire una ricerca restituendo tutti gli altri siti catalitici nel CSA che hanno gli stessi residui catalitici raggruppati per i loro numeri EC. Inoltre, vengono forniti collegamenti ipertestuali a risorse esterne, come PDBSum (6) e IntEnz (7). Vengono creati collegamenti interni ad altre voci che condividono lo stesso numero E. C. (8) o numeri di adesione di sequenza o identificatori PDB. Un riepilogo dei tipi di dati indicati per una voce è riportato nella Figura 1.

Figura 1.

Panoramica dei dati presentati per una voce curata da CSA. I descrittori di meta-dati come il nome e la specie dell’enzima, nonché i collegamenti interni per trovare le voci nel CSA che condividono le proprietà insieme ai collegamenti a risorse Web esterne, sono mostrati in una tabella (A). Un visualizzatore 3D (B) visualizza la struttura enzimatica, evidenziando ciascuno dei siti catalitici (da un menu a discesa) in rosso. Un rapporto a testo libero della reazione complessiva e del meccanismo sono forniti (C) con un diagramma di reazione contrassegnato con gruppi conservati attraverso la reazione e le variazioni di legame. D) Indica le annotazioni contenute per ciascun residuo catalitico in ciascun sito catalitico.

Figura 1.

Panoramica dei dati presentati per una voce curata da CSA. I descrittori di meta-dati come il nome e la specie dell’enzima, nonché i collegamenti interni per trovare le voci nel CSA che condividono le proprietà insieme ai collegamenti a risorse Web esterne, sono mostrati in una tabella (A). Un visualizzatore 3D (B) visualizza la struttura enzimatica, evidenziando ciascuno dei siti catalitici (da un menu a discesa) in rosso. Un rapporto a testo libero della reazione complessiva e del meccanismo sono forniti (C) con un diagramma di reazione contrassegnato con gruppi conservati attraverso la reazione e le variazioni di legame. D) Indica le annotazioni contenute per ciascun residuo catalitico in ciascun sito catalitico.

Gli sviluppatori coinvolti nella previsione di proteine di funzione sconosciuta possono utilizzare il numero esteso di voci curate per addestrare e testare le metodologie in fase di sviluppo. Inoltre i singoli utenti possono accedere sia a voci curate che derivate dall’omologia per ottenere dettagli sui residui catalitici in una struttura di interesse, che ha il potenziale per essere utile nella progettazione di ulteriori esperimenti. L’esperienza utente è stata migliorata utilizzando le librerie BioJS (9) che forniscono un pannello di visualizzazione 3D e un visualizzatore di sequenze contrassegnato che evidenzia i residui catalitici.

Come parte di una più ampia integrazione di risorse, il CSA è stato fuso con un database sorella MACiE. Lo schema del database per le tabelle relative a CSA è mostrato in Figura 2. Il CSA è progettato come un database relazionale utilizzando una tipica piattaforma Linux, Apache, MySQL e PHP aiutata da JavaScript che utilizza la libreria BioJS.

Figura 2.

Lo schema del database per il CSA. Vengono mostrate le relazioni tra le tabelle. I dati sono memorizzati in un database MySQL.

Figura 2.

Lo schema del database per il CSA. Vengono mostrate le relazioni tra le tabelle. I dati sono memorizzati in un database MySQL.

DEDURRE I RESIDUI CATALITICI ATTRAVERSO IL CONFRONTO DELLE SEQUENZE

Le voci vengono anche annotate utilizzando un metodo di confronto automatico delle sequenze che utilizza le voci curate per dedurre i residui catalitici. 433 sequenze proteiche dal database del meccanismo enzimatico MACIE e le 911 sequenze uniche del CSA sono state estratte ed etichettate utilizzando annotazioni per residui di catena laterale, catena principale, modificati, reagenti e spettatori. Gli omologhi CSA nella sezione PDB e rivista di UniProtKB sono stati identificati utilizzando SSEARCH36 (10) con una soglia di significatività statistica di E<10-6. SSEARCH alignments ha utilizzato l’opzione-V per proiettare lo stato identity/conservative/non conservative dei residui funzionali annotati allineati dalle sequenze MACiE/CSA alle sequenze omologhe nel PDB e in SwissProt.

Le voci derivate dall’omologia, oltre ai collegamenti a origini dati esterne presenti nelle voci curate, hanno anche un collegamento interno alle voci annotate manualmente che sono state utilizzate per dedurre i residui catalitici. Il CSA 2.0 fornisce una risorsa curata manualmente di 968 strutture enzimatiche e dei loro siti catalitici, incluse informazioni sulla parte funzionale di ciascun residuo catalitico e sul suo ruolo nel meccanismo enzimatico. L’uso di confronti di sequenza estende queste annotazioni a ulteriori 32 216 strutture annotate dall’omologia, fornendo un totale di 34 096 strutture annotate su possibili 49 049 strutture depositate nel PDB che sono enzimatiche. Ciò estende notevolmente le 177 voci curate e le 2608 voci annotate dall’omologia in CSA 1.0. Inoltre, il CSA 2.0 ha voci per 1189 numeri E. C. che coprono tutte le classi di classificazione e sottoclassi e la maggior parte delle sottoclassi (Figura 3).

Figura 3.

E. C. copertura nel CSA. La classificazione della Commissione enzimatica di tutti E.C. codici classificati dalla Commissione enzimatica resi come un albero radicato. Ogni classe principale è etichettata con (i) Ossidoreduttasi, (ii) Transferasi, (iii) Idrolasi, (iv) Liasi, (v) isomerasi e (vi) Ligasi. Ogni numero E. C. nel CSA è colorato di rosso, con tutte le principali classi e sottoclassi presenti e la maggior parte delle sotto-sottoclassi.

Figura 3.

E. C. copertura nel CSA. La classificazione Enzimatica Commissione di tutti i codici E. C. classificati dalla Commissione enzimatica reso come un albero radicato. Ogni classe principale è etichettata con (i) Ossidoreduttasi, (ii) Transferasi, (iii) Idrolasi, (iv) Liasi, (v) isomerasi e (vi) Ligasi. Ogni numero E. C. nel CSA è colorato di rosso, con tutte le principali classi e sottoclassi presenti e la maggior parte delle sotto-sottoclassi.

ONTOLOGIA DEL MECCANISMO ENZIMATICO

Sebbene le risorse CSA e MACiE siano state sviluppate un po ‘ in tandem e quindi condividano un modello di dati comune, è attualmente difficile collegarle alle annotazioni enzimatiche in risorse come UniProtKB a causa delle differenze nelle definizioni delle proprietà enzimatiche e dei vocabolari utilizzati nella loro descrizione. Sebbene le descrizioni e le definizioni di alcune delle informazioni contenute in tutti e tre i database siano fatte in ontologie esistenti come GO (11) e l’ontologia ChEBI (12), sposandole e applicandole uniformemente a tutti e tre i database si sono dimostrate tutt’altro che banali.

Il CSA e il suo database gemello, MACiE, utilizzano un vocabolario controllato, con MACiE che possiede un vocabolario più dettagliato in quanto si concentra sugli enzimi in una profondità molto maggiore per includere descrizioni approfondite delle fasi di reazione chimica eseguite. Allo stesso modo, la sezione rivista dell’UniProtKB (UniProtKB/Swiss-Prot) acquisisce anche dati relativi agli enzimi a un livello di sequenza proteica più ampio, comprese le informazioni sui residui catalitici. Le annotazioni sono fatte sia come testo libero che usando un vocabolario controllato sviluppato in modo indipendente.

Per affrontare questo problema abbiamo sviluppato l’EMO che si basa sul vocabolario controllato sviluppato per MACiE e il CSA e sarà presentato alla Fonderia OBO (13). Questo vocabolario (vedi Materiale supplementare o http://purl.bioontology.org/ontology/EMO) è stato creato per descrivere i componenti attivi delle reazioni dell’enzima (cofattori, amminoacidi e ligandi affini) e il loro ruolo nella reazione. EMO si basa su questo formalizzando concetti chiave e le relazioni tra loro, necessarie per definire gli enzimi e le loro funzioni. Questo descrive non solo le caratteristiche generali di un enzima, incluso il numero E. C. (attività catalitica), la struttura 3D e le posizioni cellulari, ma consente anche l’annotazione dettagliata del meccanismo. Questo dettaglio meccanicistico può essere sia a livello lordo (reazione complessiva solo come catturato nel CSA), o la granularità più dettagliata dei passaggi e componenti necessari per effettuare la trasformazione chimica complessiva.

EMO consente di disegnare insieme molte risorse diverse, anche quando le annotazioni sono solo parzialmente create, il che potrebbe consentire di espandere l’annotazione incompleta. La comunicazione tra i database può essere facilitata attraverso l’uso di una risorsa universale che associa termini disparati a un modello di dati comune. Tutte le annotazioni delle voci curate da CSA sono state integrate nelle annotazioni fornite in UniProtKB.

GENERAZIONE DI MODELLI 3D

Utilizzando le voci appena curate è possibile costruire modelli tridimensionali costituiti da pochi atomi dei residui del sito attivo. I tipi di residui alternativi per ciascun residuo catalitico nel modello possono essere catalogati nel modello a partire dalle posizioni equivalenti ricavate dalle voci derivate dall’omologia. Questo estende un set di 149 modelli costruiti da CSA 1.0 per un totale di 584 modelli da CSA 2.0. I modelli possono essere utilizzati da Jess, un algoritmo veloce e flessibile per la ricerca di strutture proteiche per piccoli gruppi di atomi basati su vincoli geometrici e chimici (14), per cercare attraverso nuove strutture per trovare potenziali siti catalitici. Questo è stato implementato in un nuovo server CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Gli utenti di questo servizio asincrono possono caricare il proprio file di struttura o richiedere una struttura depositata (se non è già stata annotata dal CSA) da cercare utilizzando i nuovi modelli. I risultati sono classificati in base al RMSD e un log E-value. Il modello realizzato da ogni voce curata è accessibile dalla relativa pagina di ingresso CSA e collettivamente reso disponibile per il download.

CONCLUSIONI

CSA 2.0 fornisce una nuova interfaccia moderna per un set di dati molto esteso a cura manuale di residui coinvolti nei siti catalitici enzimatici e il ruolo funzionale che svolgono nella reazione. È stato implementato un nuovo metodo per estrapolare in modo affidabile le annotazioni e l’identificazione dei residui catalitici in strutture omologhe. Inoltre le voci curate possono essere utilizzate per creare modelli 3D dei siti catalitici, che a loro volta possono essere utilizzati per cercare nuove strutture per l’identificazione del sito catalitico utilizzando un servizio CSS rivisto. Inoltre è stata sviluppata una nuova ontologia per consentire il trasferimento di annotazioni relative alla catalisi enzimatica tra le risorse. Questo è stato usato per includere annotazioni CSA in UniProtKB e MACiE.

Il database è disponibile all’indirizzo http://www.ebi.ac.uk/thornton-srv/databases/CSA, mentre il servizio CSS può essere trovato all’indirizzo http://www.ebi.ac.uk/thornton-srv/databases/CSS. Entrambi sono compatibili con la maggior parte dei browser web moderni. Tutti i dati nel CSA sono scaricabili e liberamente disponibili per la comunità accademica.

FINANZIAMENTO

Dichiarazione di conflitto di interessi. Nessuno dichiarato.

RINGRAZIAMENTI

Gli autori desiderano ringraziare gli sforzi dei molti annotatori che hanno contribuito alle voci curate nel CSA. Vorremmo anche ringraziare il dottor Syed A. Rahman per aver fornito i diagrammi di reazione marcati.

1

Consorzio Uniprot
Aggiornamento sulle attività presso la Risorsa proteica universale (UniProt) nel 2013

,

Acidi nucleici Res.

,

2013

, vol.

41

(pag.

D43
D47

)

2

Porter
CT

Bartlett
GJ

Thornton
JM

.

The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data

,

Nucleic Acids Res.

,

2004

, vol.

32

(pag.

D129
D133

)

3

Velankar

Alhroub
Y

Migliori
C

Caboche

Conroy
MJ

Dana
JM

Fernandez Montecelo
OPACO

van Ginkel
G

Golovin
Un

Gore
SP

, et al.

PDBe: Protein Data Bank in Europe

,

Nucleic Acids Res.

,

2012

, vol.

40

(pag.

D445
D452

)

4

Vacanza
GL

Andreini
C

Fischer
JD

di Rado
QUESTO

Almonacid
DUE

Williams
SAN

Pearson
WR

.

MACiE: exploring the diversity of biochemical reactions

,

Nucleic Acids Res.

,

2012

, vol.

40

(pag.

D783
D789

)

5

di Rado

Bashton
M

Vacanza
G

Schrader
R

Thornton
J

.

Piccola molecola Subgraph Detector (SMSD) toolkit

,

J. Cheminform.

,

2009

, vol.

1

pg.

12

6

Laskowski
RARE

.

PDBsum new things

,

Nucleic Acids Res.

,

2009

, vol.

37

(pag.

D355
D359

)

7

Fleischmann
Un

Darsow
M

Degtyarenko
K

Fleischmann
Si

Boyce

Axelsen
KB

Bairoch
Un

Schomburg
D

Tipton
NF

Apweiler
R

.

IntEnz, the integrated relational enzyme database

,

Nucleic Acids Res.

,

2004

, vol.

32

(pag.

D434
D437

)

8

Unione Internazionale di Biochimica e Biologia Molecolare, la Nomenclatura,C. e Webb,E. C. (1992), Enzima Nomenclatura 1992 : raccomandazioni del Comitato della Nomenclatura dell’Unione Internazionale di Biochimica e Biologia Molecolare, relativo alla Nomenclatura e Classificazione degli Enzimi/Preparati per NC-IUBMB da Edwin C. Webb. Pubblicato per la Unione Internazionale di Biochimica e Biologia Molecolare da Academic Press, San Diego
9

Gomez
J

Garcia
LJ

Salazar
GA

Villaveces
J

Gore

Garcia
Un

Martin
MJ

Launay
G

Alcantara
R

Del-Toro
N

, et al.

BioJS: un framework JavaScript open source per la visualizzazione dei dati biologici

,

Bioinformatica

,

2013

, vol.

29

(pag.

1103
1104

)

10

Sierk
ML

Pearson
WR

.

Sensibilità e selettività nel confronto delle strutture proteiche

,

Protein Sci.

,

2004

, vol.

13

(pag.

773
785

)

11

Blake
JA

Dolan
M

Drabkin
H

Colle
DP

E
N

Sitnikov
D

Ponti

Burgess

Buza
T

McCarthy
F

, et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530
D535

)

12

Hastings
J

de Matos
P

Laura
Un

Ennis
M

Harsha
B

Peel
N

Muthukrishnan
V

Owen
G

Turner

Williams
M

, et al.

The Chebi reference database and ontology for biologicamente rilevanti chemistry: enhancements for 2013

,

Nucleic Acids Res.

,

2013

, vol.

41

(pag.

D456
D463

)

13

Smith
B

Ashburner
M

Rosse
C

Bard
J

Bug
Si

Ceusters
Si

Goldberg
LJ

Eilbeck
K

Irlanda
Un

Mungall
CJ

, et al.

La fonderia OBO: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644
1649

)

Autore note

Presenti indirizzi: Gemma L. Vacanza, Università di California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Regno Unito.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.