Resumen
Comprender cuáles son los residuos catalíticos en una enzima y qué función desempeñan es crucial para muchos estudios de biología, particularmente aquellos que conducen a nuevas terapias y diseño de enzimas. La versión original del Catalytic Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) publicado en 2004, que cataloga los residuos involucrados en la catálisis enzimática en estructuras proteicas determinadas experimentalmente, tenía solo 177 entradas seleccionadas y empleaba un enfoque simplista para expandir estas anotaciones a estructuras enzimáticas homólogas. Aquí presentamos una nueva versión de la CSA (CSA 2.0), que amplía en gran medida el número de sitios catalíticos curados (968) y anotados automáticamente en estructuras enzimáticas, utilizando un nuevo método para la transferencia de anotaciones. Las entradas seleccionadas se utilizan, junto con la variación en el tipo de residuo de la comparación de secuencias, para generar plantillas 3D de los sitios catalíticos, que a su vez se pueden usar para encontrar sitios catalíticos en nuevas estructuras. Para facilitar la transferencia de anotaciones de CSA a otros recursos, se ha desarrollado una nueva ontología: la Ontología Mecanismo de Enzimas, que ha permitido la transferencia de anotaciones a los recursos Mecanismo, Anotación y Clasificación en Enzimas (MACiE) y Base de Conocimiento UniProt (UniProtKB). El esquema de base de datos de CSA ha sido rediseñado y tanto los datos de CSA como las capacidades de búsqueda se presentan en una nueva interfaz web moderna.
INTRODUCCIÓN
Las enzimas representan 4 el 45% de los productos proteicos colectivos de todos los genomas catalogados por recursos como la Base de Conocimiento UniProt (UniProtKB) (1). Como catalizadores biológicos, facilitan los muchos procesos y vías metabólicas que son fundamentales para que exista la vida y han sido el foco de estudios de biólogos y químicos durante más de 100 años. También son algunos de los principales objetivos en el desarrollo de medicamentos farmacéuticos, con muchos medicamentos aprobados que actúan para modificar la acción de las enzimas implicadas en los procesos de la enfermedad. Además, a menudo son el centro de coordinación de las aplicaciones de la biotecnología. La información detallada sobre los residuos catalíticos y los sitios activos de las enzimas es esencial para comprender la relación entre la estructura y las funciones de las proteínas, el diseño de los inhibidores y el diseño de las enzimas.
El Catalytic Site Atlas (CSA) (2) se estableció para proporcionar anotaciones curadas del pequeño número de residuos altamente conservados que están directamente involucrados en la realización de la actividad catalítica en enzimas cuyas estructuras se han depositado en el Banco de Datos de Proteínas (PDB) (3). Estas entradas curadas a su vez se pueden usar para inferir residuos catalíticos en otras estructuras enzimáticas a través de la homología, utilizando un método simple de psiblastos.
El recurso original contenía 177 entradas anotadas a mano y 2608 entradas homólogas, y cubría 3 el 30% de todos los números CE encontrados en PDB. Presentamos aquí una nueva versión del Catalytic Site Atlas-CSA 2.0. Hemos aumentado significativamente el número de entradas seleccionadas a 968 e implementamos un nuevo método más sofisticado para transferir las anotaciones a estructuras homólogas, lo que aumenta la robustez de la transferencia de anotaciones. La ampliación de las entradas seleccionadas también permite la adición de nuevas plantillas estructurales 3D, que se han utilizado en una revisión del servicio de Búsqueda Catalítica de sitios. Además, se ha rediseñado el esquema de la base de datos, integrándolo en una base de datos hermana de mecanismos enzimáticos: base de datos del Mecanismo, Anotación y Clasificación en Enzimas (MACiE) (4). También hemos desarrollado una nueva ontología, la Ontología de Mecanismo Enzimático (EMO), que permite la integración de la información de CSA en estructuras de datos MACiE y UniProtKB y puede usarse como un vocabulario controlado para describir aspectos de la secuencia y estructura de proteínas con términos químicos y mecanicistas en todos los recursos.
CONTENIDO DE CSA
Los principales datos contenidos en el CSA son los residuos de proteínas de estructuras atómicas determinadas experimentalmente que se definen como catalíticas. Los residuos se designan como catalíticos cumpliendo cualquiera de los siguientes criterios: i) Participación directa en el mecanismo catalítico; ii) Altera el pKa de otro residuo o molécula de agua directamente involucrada en el mecanismo catalítico; iii) Estabilización de un estado de transición o intermedio; y iv) Activación de un sustrato. Tenga en cuenta que no incluye residuos que están involucrados únicamente en la unión de ligandos y, por lo tanto, difiere de otros recursos, como las anotaciones de UniProtKB. Las entradas se realizan con respecto a la estructura del PDB depositado, con el potencial de tener muchos sitios catalíticos dentro de una sola entrada.
Las anotaciones de residuos catalíticos se realizan mediante curación manual o mediante comparación de secuencias. Las entradas que deben anotarse manualmente se seleccionan del AP en función de la calidad de la estructura y de la evidencia experimental disponible de la reacción catalizada. Esto incluye detalles del mecanismo catalítico, también validados por datos experimentales cuando sea posible. Los anotadores proporcionan una breve descripción en texto libre de la enzima, así como un resumen más detallado del mecanismo enzimático. La reacción en sí también se presenta y marca para mostrar los cambios en las subestructuras moleculares y los cambios de orden de enlace/valencia utilizando un algoritmo de coincidencia átomo–átomo implementado en el detector de subgrafos de moléculas pequeñas (SMSD) (5). Para cada residuo en cada sitio catalítico se registra la parte funcional del residuo, así como su función y objetivo descritos utilizando un vocabulario controlado y una breve descripción de texto libre de cómo el residuo realiza la función. Las etiquetas de evidencia proporcionan un enlace directo a la literatura de la que se derivaron las anotaciones. Para cada sitio catalítico se puede realizar una búsqueda que devuelva todos los demás sitios catalíticos en el CSA que tienen los mismos residuos catalíticos agrupados por sus números de CE. Además, se proporcionan hipervínculos a recursos externos, como PDBSum (6) e IntEnz (7). Se crean enlaces internos a otras entradas que comparten el mismo número CE (8) o números de acceso secuencial o identificadores PDB. En la Figura 1 figura un resumen de los tipos de datos mostrados para una entrada.
Descripción general de los datos presentados para una entrada curada por CSA. Los descriptores de metadatos, como el nombre de la enzima y la especie, así como los enlaces internos para encontrar entradas en la CSA que comparten propiedades junto con enlaces a recursos web externos, se muestran en una tabla (A). Un visor 3D (B) muestra la estructura de la enzima, resaltando cada uno de los sitios catalíticos (de un menú desplegable) en rojo. Se proporciona un informe de texto libre de la reacción general y el mecanismo (C) con un diagrama de reacción marcado con grupos conservados a través de los cambios de reacción y enlace. D) Muestra las anotaciones correspondientes a cada residuo catalítico en cada sitio catalítico.
Descripción general de los datos presentados para una entrada curada por CSA. Los descriptores de metadatos, como el nombre de la enzima y la especie, así como los enlaces internos para encontrar entradas en la CSA que comparten propiedades junto con enlaces a recursos web externos, se muestran en una tabla (A). Un visor 3D (B) muestra la estructura de la enzima, resaltando cada uno de los sitios catalíticos (de un menú desplegable) en rojo. Se proporciona un informe de texto libre de la reacción general y el mecanismo (C) con un diagrama de reacción marcado con grupos conservados a través de los cambios de reacción y enlace. D) Muestra las anotaciones correspondientes a cada residuo catalítico en cada sitio catalítico.
Los desarrolladores involucrados en la predicción de proteínas de función desconocida pueden usar el número extendido de entradas curadas para entrenar y probar las metodologías que se están desarrollando. Además, los usuarios individuales pueden acceder a entradas curadas y derivadas de homología para obtener detalles de los residuos catalíticos en una estructura de interés, que tiene el potencial de ser útil en el diseño de nuevos experimentos. La experiencia de usuario se ha mejorado con bibliotecas BioJS (9) que proporcionan un panel de visualización 3D, así como un visor de secuencias marcadas que destaca los residuos catalíticos.
Como parte de una integración más amplia de recursos, la CSA se ha fusionado con una base de datos hermana MACiE. El esquema de base de datos para las tablas relacionadas con CSA se muestra en la Figura 2. El CSA está diseñado como una base de datos relacional utilizando una plataforma típica de Linux, Apache, MySQL y PHP asistida por JavaScript utilizando la biblioteca BioJS.
El esquema de base de datos para la CSA. Se muestran las relaciones entre tablas. Los datos se almacenan en una base de datos MySQL.
El esquema de base de datos para la CSA. Se muestran las relaciones entre tablas. Los datos se almacenan en una base de datos MySQL.
INFERIR RESIDUOS CATALÍTICOS A TRAVÉS DE la COMPARACIÓN DE SECUENCIAS Las entradas
también se anotan utilizando un método automatizado de comparación de secuencias que utiliza las entradas seleccionadas para inferir residuos catalíticos. se extrajeron y etiquetaron 433 secuencias de proteínas de la base de datos del mecanismo enzimático MACIE y las 911 secuencias únicas de la CSA utilizando anotaciones para residuos de cadena lateral, cadena principal, modificados, reactivos y espectadores. Los homólogos de CSA en el AP y la sección revisada de UniProtKB se identificaron utilizando SSEARCH36 (10) con un umbral de significación estadística de E<10-6. Las alineaciones de SSEARCH utilizaron la opción-V para proyectar el estado de identidad/conservador/no conservador de los residuos funcionales anotados alineados de las secuencias MACiE/CSA a las secuencias homólogas en el PDB y SwissProt.
Las entradas derivadas por homología, además de los enlaces a fuentes de datos externas que se encuentran en las entradas seleccionadas, también tienen un enlace interno a las entradas anotadas manualmente que se utilizaron para inferir residuos catalíticos. El CSA 2.0 proporciona un recurso curado manualmente de 968 estructuras enzimáticas y sus sitios catalíticos, incluida información sobre la parte funcional de cada residuo catalítico y su papel en el mecanismo enzimático. El uso de comparaciones de secuencias extiende estas anotaciones a otras 32 216 estructuras anotadas por homología, proporcionando un total de 34 096 estructuras anotadas de las posibles 49 049 estructuras depositadas en el AP que son enzimáticas. Esto amplía en gran medida las 177 entradas seleccionadas y las 2608 entradas anotadas por homología en CSA 1.0. Además, el CSA 2.0 tiene entradas para 1189 números de la CE que cubren todas las clases y subclases de clasificación de la CE y la mayoría de las sub-subclases (Figura 3).
Cobertura de E. C. en la CSA. Clasificación de la Comisión Enzimática de todos los E.C. códigos clasificados por la Comisión de Enzimas renderizados como un árbol enraizado. Cada clase principal está etiquetada con (i) Oxidorreductasas, (ii) Transferasas, (iii) Hidrolasas, (iv) Liasas, (v) Isomerasas y (vi) Ligasas. Cada número de CE en el CSA es de color rojo, con todas las clases y subclases principales presentes y la mayoría de las sub-subclases.
Cobertura de E. C. en la CSA. Clasificación de la Comisión Enzimática de todos los códigos CE clasificados por la Comisión Enzimática como árbol enraizado. Cada clase principal está etiquetada con (i) Oxidorreductasas, (ii) Transferasas, (iii) Hidrolasas, (iv) Liasas, (v) Isomerasas y (vi) Ligasas. Cada número de CE en el CSA es de color rojo, con todas las clases y subclases principales presentes y la mayoría de las sub-subclases.
ONTOLOGÍA DE MECANISMO ENZIMÁTICO
Aunque los recursos de CSA y MACiE se han desarrollado en conjunto y, por lo tanto, comparten un modelo de datos común, actualmente es difícil vincularlos a anotaciones enzimáticas en recursos como UniProtKB debido a las diferencias en las definiciones de las propiedades enzimáticas y los vocabularios utilizados en su descripción. Aunque las descripciones y definiciones de parte de la información contenida en las tres bases de datos se hacen en ontologías existentes como GO (11) y la ontología ChEBI (12), casarlas y aplicarlas de manera uniforme a las tres bases de datos resultó lejos de ser trivial.
La CSA y su base de datos hermana, MACiE, utilizan un vocabulario controlado, con MACiE poseyendo un vocabulario más detallado, ya que se centra en las enzimas en una profundidad mucho mayor para incluir descripciones exhaustivas de los pasos de reacción química realizados. Del mismo modo, la sección revisada del UniProtKB (UniProtKB/Swiss-Prot) también captura datos relacionados con enzimas a un nivel de secuencia de proteínas más amplio, incluida información sobre residuos catalíticos. Las anotaciones se realizan como texto libre y utilizando un vocabulario controlado desarrollado de forma independiente.
Para abordar esto, hemos desarrollado el EMO que se basa en el vocabulario controlado desarrollado para MACiE y la CSA y se enviará a la Fundición OBO (13). Este vocabulario (ver Material Suplementario o http://purl.bioontology.org/ontology/EMO) fue creado para describir los componentes activos de las reacciones de la enzima (cofactores, aminoácidos y ligandos afines) y sus funciones en la reacción. EMO se basa en esto al formalizar conceptos clave, y las relaciones entre ellos, necesarios para definir las enzimas y sus funciones. Esto describe no solo las características generales de una enzima, incluido el número de CE (actividad catalítica), la estructura 3D y las ubicaciones celulares, sino que también permite la anotación detallada del mecanismo. Este detalle mecanicista puede ser a un nivel bruto (reacción general solo capturada en el CSA), o la granularidad más detallada de los pasos y componentes necesarios para efectuar la transformación química general.
EMO permite que muchos recursos diferentes se dibujen juntos, incluso cuando las anotaciones solo se hacen parcialmente, lo que podría permitir que se expandan las anotaciones incompletas. La comunicación entre las bases de datos puede facilitarse mediante el uso de un recurso universal de este tipo que asigna términos dispares a un modelo de datos común. Todas las anotaciones de las entradas curadas por la CSA se han integrado en las anotaciones proporcionadas en UniProtKB.
GENERAR PLANTILLAS 3D
Utilizando las entradas recién seleccionadas, es posible crear plantillas tridimensionales que consisten en solo los pocos átomos de los residuos del sitio activo. Los tipos de residuos alternativos para cada residuo catalítico de la plantilla pueden catalogarse en la plantilla a partir de las posiciones equivalentes de las entradas derivadas por homología. Esto amplía un conjunto de 149 plantillas construidas a partir de CSA 1.0 hasta un total de 584 plantillas de CSA 2.0. Las plantillas pueden ser utilizadas por Jess, un algoritmo rápido y flexible para buscar estructuras de proteínas para grupos pequeños de átomos basados en restricciones geométricas y químicas (14), para buscar a través de nuevas estructuras y encontrar sitios catalíticos potenciales. Esto se ha implementado en un nuevo CSS de servidor (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Los usuarios de este servicio asincrónico pueden cargar su propio archivo de estructura o solicitar una estructura depositada (si aún no ha sido anotada por la CSA) para ser buscada usando las nuevas plantillas. Los resultados se clasifican en función de la RMSD y un valor E de registro. Se puede acceder a la plantilla hecha de cada entrada curada desde la página de entrada de CSA correspondiente, así como también se puede descargar colectivamente.
CONCLUSIONES
CSA 2.0 proporciona una nueva interfaz moderna a un conjunto de datos mucho más amplio y curado manualmente de residuos involucrados en sitios catalíticos enzimáticos y el papel funcional que desempeñan en la reacción. Se ha implementado un nuevo método para extrapolar de forma fiable las anotaciones y la identificación de residuos catalíticos a estructuras homólogas. Además, las entradas seleccionadas se pueden usar para crear plantillas 3D de los sitios catalíticos, que a su vez se pueden usar para buscar nuevas estructuras para la identificación de sitios catalíticos utilizando un servicio CSS revisado. Además, se ha desarrollado una nueva ontología para permitir la transferencia de anotaciones relacionadas con la catálisis enzimática entre recursos. Esto se ha utilizado para incluir anotaciones de CSA en UniProtKB y MACiE.
La base de datos está disponible en http://www.ebi.ac.uk/thornton-srv/databases/CSA, mientras que el servicio CSS se puede encontrar en http://www.ebi.ac.uk/thornton-srv/databases/CSS. Ambos son compatibles con la mayoría de los navegadores web modernos. Todos los datos de la CSA se pueden descargar y están disponibles gratuitamente para la comunidad académica.
FINANCIACIÓN
Declaración de conflicto de intereses. Ninguna declarada.
AGRADECIMIENTOS
A los autores les gustaría agradecer los esfuerzos de los muchos anotadores que han contribuido a las entradas seleccionadas en el CSA. También nos gustaría dar las gracias al Dr. Syed A. Rahman por proporcionar los diagramas de reacción marcados.
,
,
, vol.
(pg.
)
,
,
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
.
,
,
, vol.
(pg.
)
,
,
,
,
.
,
,
, vol.
pg.
.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
. Sensibilidad y selectividad en la comparación de estructura proteica
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
Author notes
Present addresses: Gemma L. Holiday, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.
Julius O. B. Jacobsen, Wellcome Trust Sanger Institute, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, UK.