O Catalisador Site Atlas 2.0: catalogação de sítios catalíticos e resíduos identificados na enzimas

Resumo

o Entendimento de quais são as catalítico de resíduos de uma enzima e qual a função que desempenham é crucial para muitos estudos em biologia, particularmente as que conduzem a novas terapêuticas e enzima de design. A versão original do Catalisador Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA), publicado em 2004, que cataloga os resíduos envolvidos na catálise enzimática em determinados experimentalmente, as estruturas de proteínas, tinha apenas 177 curadoria entradas e empregou uma abordagem simplista para a expansão destas anotações para homólogo enzima estruturas. Aqui apresentamos uma nova versão do CSA (CSA 2.0), que expande muito o número de tanto curados (968) quanto automaticamente anotados sites catalíticos em estruturas enzimáticas, utilizando um novo método para a transferência de anotações. As entradas curadas são usadas, juntamente com a variação do tipo de resíduo a partir da comparação de sequência, para gerar modelos 3D dos sites catalíticos, que por sua vez pode ser usado para encontrar sites catalíticos em novas estruturas. Para facilitar a transferência de anotações CSA para outros recursos foi desenvolvida uma nova ontologia: o mecanismo enzimático ontologia, que permitiu a transferência de anotações para mecanismos, anotações e classificação em enzimas (MACiE) e base de Conhecimento UniProt (UniProtKB) recursos. O esquema de banco de dados CSA foi re-projetado e tanto os dados CSA e recursos de pesquisa são apresentados em uma nova interface web moderna.

introdução

enzimas representam ∼45% dos produtos proteicos coletivos de todos os genomas catalogados por recursos como a base de Conhecimento UniProt (UniProtKB) (1). Como catalisadores biológicos, eles facilitam os muitos processos metabólicos e caminhos que são críticos para a vida existir e têm sido o foco de estudos por biólogos e químicos por mais de 100 anos. Eles também são alguns dos principais alvos no desenvolvimento de medicamentos farmacêuticos, com muitos medicamentos aprovados atuando para modificar a ação das enzimas implicadas nos processos de doença. Além disso, são frequentemente o ponto focal das aplicações biotecnológicas. São essenciais informações detalhadas sobre resíduos catalíticos e sítios activos enzimáticos para compreender a relação entre a estrutura e as funções proteicas, a concepção de inibidores e a concepção enzimática.o Atlas do sítio catalítico (CSA) (2) foi estabelecido para fornecer anotações curadas do pequeno número de resíduos altamente conservados que estão directamente envolvidos na actividade catalítica em enzimas cujas estruturas foram depositadas no banco de dados proteicos (PDB) (3). Estas entradas curadas podem, por sua vez, ser usadas para inferir resíduos catalíticos em outras estruturas enzimáticas através da homologia, usando um método simples de PSIBlast.

o recurso original continha 177 entradas anotadas manualmente e 2608 entradas homólogas, e cobria ∼30% de todos os números CE encontrados no PDB. Apresentamos aqui uma nova versão do Site catalítico Atlas-CSA 2.0. Aumentámos significativamente o número de inscrições curadas para 968 e implementámos um novo método mais sofisticado para transferir as anotações para estruturas homólogas, aumentando a robustez da transferência de anotações. A expansão de entradas curadas também permite a adição de novos modelos estruturais 3D, que têm sido usados em uma revisão do serviço de busca de Site catalítico. Além disso, o esquema da base de dados foi re-projetado, integrando-o em uma base de dados irmã de mecanismos enzimáticos: o mecanismo, a anotação e a classificação na base de dados das enzimas (MACiE) (4). Também desenvolvemos uma nova ontologia, a ontologia do mecanismo enzimático (Emo), que permite a integração da informação CSA em estruturas de dados MACiE e UniProtKB e pode ser usada como um vocabulário controlado para descrever aspectos de sequência e estrutura proteica com química e termos mecanísticos através de recursos.

teor de CSA

Os principais dados contidos no CSA são os resíduos de proteínas de estruturas atómicas determinadas experimentalmente que são definidas como catalíticas. Os resíduos são designadas como sendo catalítico pelo cumprimento de qualquer um dos seguintes critérios: (i) envolvimento Direto no mecanismo catalítico; (ii) Altera o pKA do outro resíduo ou molécula de água diretamente envolvidos no mecanismo catalítico; (iii) Estabilização de um estado de transição ou intermediário; e (iv) a Ativação de um substrato. Note que não inclui resíduos que estão envolvidos apenas na ligação ligando e, portanto, difere de outros recursos, tais como anotações UniProtKB. As entradas são feitas em relação à estrutura do PDB depositado, com o potencial de ter muitos locais catalíticos dentro de uma única entrada.as anotações de resíduos catalíticos são feitas quer por Curação manual, quer por comparação de sequência. As entradas a anotar manualmente são escolhidas do AO com base na qualidade da estrutura e nas provas experimentais disponíveis da reacção catalisada. Isto inclui pormenores do mecanismo catalítico, também validados por dados experimentais, sempre que possível. Os anotadores fornecem uma breve descrição da enzima em texto livre, bem como um resumo mais detalhado do mecanismo enzimático. A reação em si também é apresentado e marcado para mostrar as alterações moleculares subestruturas e obrigações de ordem/valence alterações usando um átomo–átomo correspondente algoritmo implementado na pequena molécula subgraph detector (SMSD) (5). Para cada resíduo em cada local catalítico, a parte funcional do resíduo é registada, bem como a sua função e alvo descritos usando um vocabulário controlado e uma breve descrição de texto livre de como o resíduo executa a função. As marcas de evidência fornecem uma ligação direta à literatura a partir da qual as anotações se derivam. Para cada sítio catalítico pode ser realizada uma pesquisa que retorne todos os outros sítios catalíticos no CSA que têm os mesmos resíduos catalíticos agrupados pelos seus números E. C. Além disso, são fornecidas hiperligações a recursos externos, como PDBSum (6) e IntEnz (7). São feitas ligações internas para outras entradas que partilham os mesmos números E. C. (8) ou os mesmos números de entrada sequenciais ou os identificadores Do ao. A Figura 1 apresenta um resumo dos tipos de dados apresentados para uma entrada.

Figura 1.

visão geral dos dados apresentados para uma entrada CSA-curada. Os descritores de Meta-dados, como o nome da enzima e as espécies, bem como ligações internas para encontrar entradas no CSA que partilham propriedades, juntamente com ligações a recursos web externos, são apresentados numa tabela (a). Um visualizador 3D (B) exibe a estrutura enzimática, destacando cada um dos sites catalíticos (a partir de um menu de puxar) em vermelho. A free-text report of the overall reaction and mechanism are provided (c) with a reaction diagram marked up with groups conserved across the reaction and bond changes. D) Mostra as anotações mantidas para cada resíduo catalítico em cada sítio catalítico.

Figura 1.

visão geral dos dados apresentados para uma entrada CSA-curada. Os descritores de Meta-dados, como o nome da enzima e as espécies, bem como ligações internas para encontrar entradas no CSA que partilham propriedades, juntamente com ligações a recursos web externos, são apresentados numa tabela (a). Um visualizador 3D (B) exibe a estrutura enzimática, destacando cada um dos sites catalíticos (a partir de um menu de puxar) em vermelho. A free-text report of the overall reaction and mechanism are provided (c) with a reaction diagram marked up with groups conserved across the reaction and bond changes. D) Mostra as anotações mantidas para cada resíduo catalítico em cada sítio catalítico.

desenvolvedores envolvidos na previsão de proteínas de função desconhecida podem usar o número estendido de entradas curadas para treinar e testar as metodologias que estão sendo desenvolvidas. Além disso, os usuários individuais podem acessar entradas tanto curadas quanto derivadas de homologia para obter detalhes dos resíduos catalíticos em uma estrutura de interesse, que tem o potencial de ser útil na concepção de novas experiências. A experiência do usuário foi melhorada usando bibliotecas BioJS (9) que fornecem um painel de visualização 3D, bem como um visualizador de sequência marcada destacando os resíduos catalíticos.como parte de uma maior integração de recursos, o CSA foi fundido com uma base de dados irmã MACiE. O esquema da base de dados para as tabelas relacionadas com o CSA é apresentado na Figura 2. O CSA é projetado como um banco de dados relacional usando uma plataforma típica Linux, Apache, MySQL e PHP auxiliada por JavaScript utilizando a Biblioteca BioJS.

Figura 2.

o esquema da base de dados para o CSA. As relações entre tabelas são mostradas. Os dados são armazenados em uma base de dados MySQL.

Figura 2.

o esquema da base de dados para o CSA. As relações entre tabelas são mostradas. Os dados são armazenados em uma base de dados MySQL.

inferir resíduos catalíticos por comparação de sequência

As entradas também são anotadas usando um método de comparação de sequência automatizado que utiliza as entradas curadas para inferir resíduos catalíticos. 433 sequências de proteínas da base de dados do mecanismo das enzimas MACIE e das 911 sequências únicas à CSA foram extraídas e rotuladas usando anotações para a cadeia lateral, cadeia principal, modificado, reagente e resíduos de espectador. Homólogos da CSA no PDB e na seção revisada do UniProtKB foram identificados usando SSEARCH 36 (10) com um limiar de significância estatística de E<10-6. Os alinhamentos SSEARCH utilizaram a opção –V para projetar o estado de identidade/conservador/não conservador dos resíduos funcionais anotados alinhados das sequências MACiE/CSA para as sequências homólogas no PDB e no SwissProt.

As entradas derivadas pela homologia, além dos links para Fontes de dados externas encontrados nas entradas curadas, também têm um link interno para as entradas anotadas manualmente que foi usado para inferir resíduos catalíticos. O CSA 2.0 fornece um recurso curado manual de 968 estruturas enzimáticas e seus locais catalíticos, incluindo informações sobre a parte funcional de cada resíduo catalítico e seu papel no mecanismo enzimático. A utilização de comparações de sequências estende estas anotações a outras 32 216 estruturas anotadas pela homologia, proporcionando um total de 34 096 estruturas anotadas de possíveis 49 049 estruturas depositadas no PDB que são enzimáticas. Isto estende muito as 177 entradas curadas e 2608 entradas anotadas pela homologia no CSA 1.0. Além disso, o CSA 2.0 tem entradas para 1189 números E. C. Cobrindo todas as classes e subclasses de classificação E. C. e a maioria das subclasses (Figura 3).

Figura 3.

E. C. Cobertura no CSA. The Enzyme Commission classification of all E.C. códigos classificados pela Comissão enzimática como uma árvore enraizada. Cada classe principal é rotulada com i) Oxidorredutases, ii) Transferases, iii) hidrolases, iv) Lyases, v) Isomerases e vi) Ligases. Cada número E. C. No CSA é de cor vermelha, com todas as classes e subclasses principais presentes e a maioria das subclasses.

Figura 3.

E. C. Cobertura no CSA. A classificação da Comissão Enzimática de todos os códigos CE classificados pela Comissão enzimática como uma árvore enraizada. Cada classe principal é rotulada com i) Oxidorredutases, ii) Transferases, iii) hidrolases, iv) Lyases, v) Isomerases e vi) Ligases. Cada número E. C. No CSA é de cor vermelha, com todas as classes e subclasses principais presentes e a maioria das subclasses.

ENZIMA MECANISMO de ONTOLOGIA

Embora o CSA e MACiE recursos foram desenvolvidos, tanto em conjunto e, assim, compartilhar um modelo de dados comum, é atualmente um desafio para ligar estes a enzima anotações em recursos, tais como a uniprotkb devido a diferenças nas definições da enzima propriedades e vocabulários utilizados na sua descrição. Embora descrições e definições de algumas das informações contidas em todas as três bases de dados sejam feitas em ontologias existentes como a ontologia GO (11) e a ontologia ChEBI (12), casando-as e aplicando-as uniformemente a todas as três bases de dados provou estar longe de ser trivial.

o CSA e seu banco de dados irmão, MACiE, utilizam um vocabulário controlado, com MACiE possuindo um vocabulário mais detalhado como ele se concentra em enzimas em uma profundidade muito maior para incluir descrições minuciosas dos passos de reação química realizados. Da mesma forma, a seção revisada do UniProtKB (UniProtKB/Swiss-Prot) também captura dados relacionados às enzimas a um nível mais amplo de sequência proteica, incluindo informações sobre resíduos catalíticos. As anotações são feitas tanto como texto livre e usando um vocabulário controlado independentemente desenvolvido.

para abordar este assunto, desenvolvemos o EMO que se baseia no vocabulário controlado desenvolvido para o MACiE e o CSA e será submetido à OBO Foundry (13). Este vocabulário (ver Material Complementar ou http://purl.bioontology.org/ontology/EMO) foi criado para descrever os componentes ativos da enzima reações (cofatores, aminoácidos e cognato ligantes) e seus papéis na reação. A EMO constrói sobre isso formalizando conceitos chave, e as relações entre eles, necessárias para definir enzimas e suas funções. Isto descreve não só as características gerais de uma enzima, incluindo o número E. C. (atividade catalítica), estrutura 3D e localizações celulares, mas também permite a anotação detalhada do mecanismo. Este detalhe mecanicista pode ser tanto em um nível bruto (reação global somente como capturada no CSA), ou a granularidade mais detalhada das etapas e componentes necessários para efetuar a transformação química global.

Emo permite que muitos recursos diferentes sejam reunidos, mesmo quando as anotações são feitas apenas parcialmente, o que poderia permitir que a anotação incompleta fosse expandida. A comunicação entre bases de dados pode ser facilitada através do uso de um recurso universal que mapeia Termos díspares para um modelo de dados comum. Todas as anotações de entradas curadas em CSA foram integradas nas anotações fornecidas no UniProtKB.

gerando modelos 3D

Usando as entradas recentemente curadas é possível construir modelos tridimensionais consistindo apenas dos poucos átomos dos resíduos do local ativo. Tipos alternativos de resíduos para cada resíduo catalítico no modelo podem ser catalogados no modelo a partir das posições equivalentes das entradas derivadas pela homologia. Isso estende um conjunto de 149 modelos construídos a partir do CSA 1.0 para um total de 584 modelos do CSA 2.0. Os modelos podem ser usados por Jess, um algoritmo rápido e flexível para pesquisar estruturas proteicas para pequenos grupos de átomos com base em restrições geométricas e químicas (14), para pesquisar através de novas estruturas para encontrar potenciais locais catalíticos. Isto foi implementado em um novo servidor CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Os utilizadores deste serviço assíncrono podem enviar o seu próprio ficheiro de estrutura ou solicitar uma estrutura depositada (se ainda não tiver sido anotada pelo CSA) para ser pesquisada usando os novos modelos. Os resultados são classificados com base no RMSD e um log e-value. O modelo feito a partir de cada entrada curada pode ser acessado a partir da página de entrada CSA relevante, bem como coletivamente sendo disponibilizado para download.

CONCLUSIONS

CSA 2.0 provides a new modern interface to a much-extended manually curated dataset of residues involved in enzyme catalytic sites and the functional role they play in the reaction. Foi implementado um novo método para extrapolar de forma fiável as anotações e a identificação de resíduos catalíticos para estruturas homólogas. In addition the curated entries can be used to build 3D templates of the catalytic sites, which in turn can be used to search new structures for catalytic site identification using a revised CSS service. Além disso, foi desenvolvida uma nova ontologia para permitir a transferência de anotações relacionadas com a catálise enzimática entre recursos. Isto tem sido usado para incluir anotações CSA em UniProtKB e MACiE.

A base de dados está disponível em http://www.ebi.ac.uk/thornton-srv/databases/CSA, enquanto o serviço CSS pode ser encontrado em http://www.ebi.ac.uk/thornton-srv/databases/CSS. Ambos são compatíveis com os navegadores web mais modernos. Todos os dados do CSA são descarregados e livremente disponíveis para a comunidade acadêmica.declaração de conflito de interesses. Nenhuma declarada.

agradecimentos

os autores gostariam de agradecer os esforços dos muitos anotadores que contribuíram para as entradas curadas no CSA. Também gostaríamos de agradecer ao Dr. Syed A. Rahman por fornecer os diagramas de reação marcados.

1
Uniprot Consortium
Atualização de atividades no Universal Proteína de Recursos (UniProt) em 2013
Ácidos Nucléicos Res.

,

2013

, vol.

41

(pg.

D43

D47

)

2

Porter
CT

Brasileiro
GJ

Thornton
JM

.

the Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data

,

Nucleic Acids Res.

,

2004

, vol.

32

(pg.

D129

D133

)

3

Velankar
S

Alhroub
Y

Melhor
C

Caboche
S

Conroy
MJ

Dana
JM

Fernandez Montecelo
FOSCO

van Ginkel
G

Golovin
Um

Gore
SP

, et al.

PDBe: Protein Data Bank in Europe

,

Nucleic Acids Res.

,

2012

, vol.

40

(pg.

D445

D452

)

4

Holliday
GL

Andreini
C

Fischer
JD

Raramente
ESTE

Almonacid
DOIS

Williams
ST

Pearson
AM

. MACiE: exploring the diversity of biochemical reactions

,

Nucleic Acids Res.

,

2012

, vol.

40

(pg.

D783

D789

)

5

Raramente
S

Bashton
M

Holliday
G

Schrader
R

Thornton
J

.

small Molecule Subgraph Detector (SMSD) toolkit

,

J. Cheminform.

,

2009

, vol.

1

pg.

12

6

Laskowski
RARA

.

PDBsum new things

,

ácidos nucleicos Res.

,

2009

, vol.

37

(pg.

D355

D359

)

7

Fleischmann
Um

Darsow
M

Degtyarenko
K

Fleischmann
Você

Boyce
S

Axelsen
KB

Bairoch
Um

Schomburg
D

Fortaleza
NF

Apweiler
R

.

IntEnz, the integrated relational enzyme database

,

Nucleic Acids Res.

,

2004

, vol.

32

(pg.

D434

D437

)

8

União Internacional de Bioquímica e Biologia Molecular, Nomenclatura,C. e Webb,E. C. (1992) Enzima Nomenclatura de 1992 : recomendações do Comitê de Nomenclatura da União Internacional de Bioquímica e Biologia Molecular relativa à Nomenclatura e Classificação das Enzimas/Preparado para a NF-IUBMB por Edwin C. Webb. Publicado pela União Internacional de Bioquímica e Biologia Molecular pela Academic Press, San Diego
9

Gomez
J

Garcia
LJ

Salazar
GA

Villaveces
J

Gore
S

Garcia
Um

Martin
MJ

Launay
G

Alcântara
R

Del-Toro
N

, et al.

BioJS: an open source JavaScript framework for biological data visualization

,

Bioinformatics

,

2013

, vol.

29

(pg.

1103

1104

)

10

Sierk
ML

Pearson
AM

.

sensibilidade e selectividade na comparação da estrutura proteica

,

proteína Sci.

,

2004

, vol.

13

(pg.

773

785

)

11
Blake
JA

Dolan
M

Drabkin
H

Hill
DP

Ele
N

Sitnikov
D

Pontes
S

Jesus
S

Buza
T

McCarthy
F

, et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

de Matos
P

Dekker
Um

Ennis
M

Harsa
B

Casca
N

Muthukrishnan
V

Owen
G

Turner
S

Williams
M

, et al.

The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D456

D463

)

13

Smith
B

Ashburner
M

Rosse
C

Bardo
J

Erro
Você

Ceusters
Você

Goldberg
LJ

Eilbeck
K

Irlanda
Um

Mungall
CJ

, et al. a fundição OBO: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

Author notes

presentes endereços: Gemma L. férias, Universidade da Califórnia, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, EUA.

Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Campusellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Reino Unido.

Deixe uma resposta

O seu endereço de email não será publicado.