L’Atlas des sites Catalytiques 2.0: catalogage des sites catalytiques et des résidus identifiés dans les enzymes

Résumé

Comprendre quels sont les résidus catalytiques dans une enzyme et quelle fonction ils remplissent est crucial pour de nombreuses études biologiques, en particulier celles menant à de nouvelles thérapies et à la conception d’enzymes. La version originale de l’Atlas des sites catalytiques (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA) publiée en 2004, qui répertorie les résidus impliqués dans la catalyse enzymatique dans des structures protéiques déterminées expérimentalement, n’avait que 177 entrées sélectionnées et utilisait une approche simpliste pour étendre ces annotations aux structures enzymatiques homologues. Nous présentons ici une nouvelle version de la CSA (CSA 2.0), qui élargit considérablement le nombre de sites catalytiques sélectionnés (968) et annotés automatiquement dans les structures enzymatiques, en utilisant une nouvelle méthode de transfert d’annotations. Les entrées sélectionnées sont utilisées, ainsi que la variation du type de résidu par rapport à la comparaison des séquences, pour générer des modèles 3D des sites catalytiques, qui peuvent à leur tour être utilisés pour trouver des sites catalytiques dans de nouvelles structures. Pour faciliter le transfert des annotations CSA vers d’autres ressources, une nouvelle ontologie a été développée : l’Ontologie du Mécanisme enzymatique, qui a permis le transfert des annotations vers les ressources Mécanisme, Annotation et Classification dans les Enzymes (MACiE) et la Base de connaissances UniProt (UniProtKB). Le schéma de la base de données CSA a été repensé et les capacités de recherche et de données CSA sont présentées dans une nouvelle interface Web moderne.

INTRODUCTION

Les enzymes représentent ∼45% des produits protéiques collectifs de tous les génomes catalogués par des ressources telles que la Base de connaissances UniProt (UniProtKB) (1). En tant que catalyseurs biologiques, ils facilitent les nombreux processus et voies métaboliques essentiels à l’existence de la vie et font l’objet d’études par des biologistes et des chimistes depuis plus de 100 ans. Ils sont également parmi les principales cibles du développement de médicaments pharmaceutiques, de nombreux médicaments approuvés agissant pour modifier l’action des enzymes impliquées dans les processus pathologiques. En outre, ils sont souvent le point focal des applications biotechnologiques. Des informations détaillées sur les résidus catalytiques et les sites actifs enzymatiques sont essentielles pour comprendre la relation entre la structure et les fonctions des protéines, la conception des inhibiteurs et la conception des enzymes.

L’Atlas des sites Catalytiques (CSA) (2) a été établi pour fournir des annotations organisées du petit nombre de résidus hautement conservés qui sont directement impliqués dans l’activité catalytique des enzymes dont les structures ont été déposées dans la Banque de données sur les protéines (PDB) (3). Ces entrées sélectionnées peuvent à leur tour être utilisées pour déduire des résidus catalytiques dans d’autres structures enzymatiques par homologie, en utilisant une méthode simple de PSIBlast.

La ressource originale contenait 177 entrées annotées à la main et 2608 entrées homologues, et couvrait330% de tous les numéros CE trouvés dans l’APB. Nous présentons ici une nouvelle version du Site Catalytique Atlas-CSA 2.0. Nous avons considérablement augmenté le nombre d’entrées organisées à 968 et avons mis en œuvre une nouvelle méthode plus sophistiquée pour transférer les annotations vers des structures homologues, augmentant ainsi la robustesse du transfert des annotations. L’expansion des entrées organisées permet également l’ajout de nouveaux modèles structurels 3D, qui ont été utilisés dans une révision du service de recherche de sites Catalytiques. De plus, le schéma de la base de données a été repensé, l’intégrant dans une base de données sœur de mécanismes enzymatiques: le mécanisme, l’Annotation et la classification dans la base de données des enzymes (MACiE) (4). Nous avons également développé une nouvelle ontologie, l’Ontologie du mécanisme enzymatique (EMO), permettant l’intégration de l’information CSA dans les structures de données MACiE et UniProtKB et pouvant être utilisée comme vocabulaire contrôlé pour décrire les aspects de la séquence et de la structure des protéines avec des termes chimiques et mécanistiques à travers les ressources.

TENEUR en CSA

Les données principales contenues dans le CSA sont les résidus de protéines provenant de structures atomiques déterminées expérimentalement et définies comme catalytiques. Les résidus sont désignés comme étant catalytiques en remplissant l’un des critères suivants : (i) Implication directe dans le mécanisme catalytique; (ii) Modifie le pKa d’un autre résidu ou d’une molécule d’eau directement impliquée dans le mécanisme catalytique; (iii) Stabilisation d’un état de transition ou d’un intermédiaire; et (iv) Activation d’un substrat. Notez qu’il n’inclut pas les résidus impliqués uniquement dans la liaison des ligands et diffère donc des autres ressources, telles que les annotations UniProtKB. Les entrées sont faites en ce qui concerne la structure de l’APB déposée, avec la possibilité d’avoir de nombreux sites catalytiques dans une seule entrée.

Les annotations de résidus catalytiques sont effectuées soit par curation manuelle, soit par comparaison de séquences. Les entrées à annoter manuellement sont choisies parmi l’APB en fonction de la qualité de la structure et des preuves expérimentales disponibles de la réaction catalysée. Cela inclut des détails sur le mécanisme catalytique, également validés par des données expérimentales lorsque cela est possible. Les annotateurs fournissent une brève description en texte libre de l’enzyme ainsi qu’un résumé plus détaillé du mécanisme enzymatique. La réaction elle-même est également présentée et marquée pour montrer les changements dans les sous–structures moléculaires et les changements d’ordre de liaison / valence à l’aide d’un algorithme d’adaptation atome-atome implémenté dans le détecteur de sous-graphes de petites molécules (SMSD) (5). Pour chaque résidu dans chaque site catalytique, la partie fonctionnelle du résidu est enregistrée ainsi que sa fonction et sa cible décrites à l’aide d’un vocabulaire contrôlé et d’une courte description en texte libre de la façon dont le résidu remplit la fonction. Les étiquettes de preuve fournissent un lien direct avec la littérature à partir de laquelle les annotations ont été dérivées. Pour chaque site catalytique, une recherche peut être effectuée en renvoyant tous les autres sites catalytiques du CSA qui ont les mêmes résidus catalytiques regroupés par leur numéro C.E. De plus, des liens hypertextes vers des ressources externes, telles que PDBSum(6) et IntEnz(7), sont fournis. Des liens internes vers d’autres entrées qui partagent le même numéro C.E. (8) ou des numéros d’accession de séquence ou des identifiants APB sont créés. Un résumé des types de données présentés pour une entrée est donné à la figure 1.

Figure 1.

Aperçu des données présentées pour une entrée organisée par l’ASC. Les descripteurs de méta-données tels que le nom et l’espèce de l’enzyme ainsi que les liens internes permettant de trouver des entrées dans l’ASC qui partagent des propriétés ainsi que des liens vers des ressources Web externes sont présentés dans un tableau (A). Une visionneuse 3D (B) affiche la structure enzymatique, en mettant en évidence chacun des sites catalytiques (à partir d’un menu déroulant) en rouge. Un rapport en texte libre de la réaction globale et du mécanisme est fourni (C) avec un diagramme de réaction marqué avec des groupes conservés à travers la réaction et les changements de liaison. D) Indique les annotations conservées pour chaque résidu catalytique dans chaque site catalytique.

Figure 1.

Aperçu des données présentées pour une entrée organisée par l’ASC. Les descripteurs de méta-données tels que le nom et l’espèce de l’enzyme ainsi que les liens internes permettant de trouver des entrées dans l’ASC qui partagent des propriétés ainsi que des liens vers des ressources Web externes sont présentés dans un tableau (A). Une visionneuse 3D (B) affiche la structure enzymatique, en mettant en évidence chacun des sites catalytiques (à partir d’un menu déroulant) en rouge. Un rapport en texte libre de la réaction globale et du mécanisme est fourni (C) avec un diagramme de réaction marqué avec des groupes conservés à travers la réaction et les changements de liaison. D) Indique les annotations conservées pour chaque résidu catalytique dans chaque site catalytique.

Les développeurs impliqués dans la prédiction de protéines de fonction inconnue peuvent utiliser le nombre étendu d’entrées sélectionnées pour former et tester les méthodologies en cours de développement. De plus, les utilisateurs individuels peuvent accéder à des entrées sélectionnées et dérivées d’homologie pour obtenir des détails sur les résidus catalytiques dans une structure d’intérêt, ce qui pourrait être utile pour la conception de nouvelles expériences. L’expérience utilisateur a été améliorée à l’aide des bibliothèques BioJS (9) qui fournissent un panneau de visualisation 3D ainsi qu’un visualiseur de séquences balisées mettant en évidence les résidus catalytiques.

Dans le cadre d’une intégration plus large des ressources, l’ASC a été fusionnée avec une base de données sœur MACiE. Le schéma de base de données pour les tableaux liés à l’ASC est illustré à la figure 2. Le CSA est conçu comme une base de données relationnelle utilisant une plate-forme Linux, Apache, MySQL et PHP typique aidée par JavaScript utilisant la bibliothèque BioJS.

Figure 2.

Le schéma de base de données du CSA. Les relations entre les tables sont affichées. Les données sont stockées dans une base de données MySQL.

Figure 2.

Le schéma de base de données du CSA. Les relations entre les tables sont affichées. Les données sont stockées dans une base de données MySQL.

DÉDUIRE DES RÉSIDUS CATALYTIQUES PAR COMPARAISON DE SÉQUENCES

Les entrées sont également annotées à l’aide d’une méthode de comparaison de séquences automatisée qui utilise les entrées sélectionnées pour déduire des résidus catalytiques. 433 séquences protéiques de la base de données du mécanisme enzymatique MACIE et les 911 séquences uniques au CSA ont été extraites et étiquetées à l’aide d’annotations pour les résidus de chaîne latérale, de chaîne principale, modifiés, réactifs et spectateurs. Les homologues CSA de l’APB et de la section revue de l’UniProtKB ont été identifiés à l’aide de SSEARCH36(10) avec un seuil de signification statistique de E< 10-6. SSEARCH alignments a utilisé l’option -V pour projeter le statut identité/conservateur/non conservateur des résidus fonctionnels annotés alignés des séquences MACiE/CSA vers les séquences homologues de l’APB et de SwissProt.

Les entrées dérivées par homologie, en plus des liens vers des sources de données externes trouvées dans les entrées organisées, ont également un lien interne vers les entrées annotées manuellement qui ont été utilisées pour déduire des résidus catalytiques. La CSA 2.0 fournit une ressource organisée manuellement de 968 structures enzymatiques et de leurs sites catalytiques, y compris des informations sur la partie fonctionnelle de chaque résidu catalytique et son rôle dans le mécanisme enzymatique. L’utilisation de comparaisons de séquences étend ces annotations à 32 216 structures supplémentaires annotées par homologie, fournissant un total de 34 096 structures annotées sur les 49 049 structures possibles déposées dans l’APB qui sont enzymatiques. Cela élargit considérablement les 177 entrées organisées et les 2608 entrées annotées par homologie dans CSA 1.0. De plus, la CSA 2.0 contient des entrées pour 1189 numéros C.E. couvrant toutes les classes et sous-classes de classification C.E. et la plupart des sous-sous-classes (figure 3).

Figure 3.

E.C. couverture dans l’ASC. La classification de la Commission des enzymes de tous les E.C. codes classés par la Commission des enzymes rendus comme un arbre enraciné. Chaque classe majeure est marquée par (i) des Oxydoréductases, (ii) des Transférases, (iii) des Hydrolases, (iv) des Lyases, (v) des Isomérases et (vi) des Ligases. Chaque numéro E.C. de l’ASC est coloré en rouge, avec toutes les principales classes et sous-classes présentes et la plupart des sous-sous-classes.

Figure 3.

E.C. couverture dans l’ASC. La classification de la Commission des enzymes de tous les codes C.E. classés par la Commission des enzymes est un arbre enraciné. Chaque classe majeure est marquée par (i) des Oxydoréductases, (ii) des Transférases, (iii) des Hydrolases, (iv) des Lyases, (v) des Isomérases et (vi) des Ligases. Chaque numéro E.C. de l’ASC est coloré en rouge, avec toutes les principales classes et sous-classes présentes et la plupart des sous-sous-classes.

ONTOLOGIE DU MÉCANISME ENZYMATIQUE

Bien que les ressources CSA et MACiE aient été développées en quelque sorte en tandem et partagent donc un modèle de données commun, il est actuellement difficile de les relier aux annotations enzymatiques dans des ressources telles que UniProtKB en raison des différences dans les définitions des propriétés enzymatiques et les vocabulaires utilisés dans leur description. Bien que les descriptions et les définitions de certaines des informations contenues dans les trois bases de données soient faites dans des ontologies existantes telles que GO(11) et l’ontologie ChEBI (12), les marier et les appliquer uniformément aux trois bases de données s’est avéré loin d’être trivial.

La CSA et sa base de données sœur, MACiE, utilisent un vocabulaire contrôlé, MACiE possédant un vocabulaire plus détaillé car il se concentre sur les enzymes de manière beaucoup plus approfondie pour inclure des descriptions approfondies des étapes de la réaction chimique effectuées. De même, la section revue de l’UniProtKB (UniProtKB / Swiss-Prot) capture également des données liées aux enzymes à un niveau de séquence protéique plus large, y compris des informations sur les résidus catalytiques. Les annotations sont faites à la fois sous forme de texte libre et en utilisant un vocabulaire contrôlé développé indépendamment.

Pour y remédier, nous avons développé l’EMO qui s’appuie sur le vocabulaire contrôlé développé pour MACiE et l’ASC et qui sera soumis à la fonderie OBO (13). Ce vocabulaire (voir Matériel supplémentaire ou http://purl.bioontology.org/ontology/EMO) a été créé pour décrire les composants actifs des réactions de l’enzyme (cofacteurs, acides aminés et ligands apparentés) et leurs rôles dans la réaction. EMO s’appuie sur cela en formalisant les concepts clés et les relations entre eux, nécessaires à la définition des enzymes et de leurs fonctions. Cela décrit non seulement les caractéristiques générales d’une enzyme, y compris le nombre E.C. (activité catalytique), la structure 3D et les emplacements cellulaires, mais permet également l’annotation détaillée du mécanisme. Ce détail mécaniste peut être soit au niveau brut (réaction globale uniquement telle que capturée dans le CSA), soit à la granularité plus détaillée des étapes et des composants nécessaires pour effectuer la transformation chimique globale.

EMO permet de rassembler de nombreuses ressources différentes, même lorsque les annotations ne sont que partiellement faites, ce qui pourrait permettre d’étendre les annotations incomplètes. La communication entre les bases de données peut être facilitée par l’utilisation d’une telle ressource universelle qui associe des termes disparates à un modèle de données commun. Toutes les annotations des entrées organisées par le CSA ont été intégrées aux annotations fournies dans UniProtKB.

GÉNÉRATION DE MODÈLES 3D

En utilisant les entrées nouvellement organisées, il est possible de construire des modèles tridimensionnels composés uniquement des quelques atomes des résidus de site actifs. D’autres types de résidus pour chaque résidu catalytique dans le modèle peuvent être catalogués dans le modèle à partir des positions équivalentes des entrées dérivées par homologie. Cela étend un ensemble de 149 modèles construits à partir de la norme CSA 1.0 à un total de 584 modèles de la norme CSA 2.0. Les modèles peuvent être utilisés par Jess, un algorithme rapide et flexible de recherche de structures protéiques pour de petits groupes d’atomes en fonction de contraintes géométriques et chimiques (14), pour rechercher de nouvelles structures afin de trouver des sites catalytiques potentiels. Cela a été implémenté dans un nouveau serveur CSS (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Les utilisateurs de ce service asynchrone peuvent soit télécharger leur propre fichier de structure, soit demander qu’une structure déposée (si elle n’a pas déjà été annotée par le CSA) soit recherchée à l’aide des nouveaux modèles. Les résultats sont classés en fonction du RMSD et d’une valeur E du journal. Le modèle créé à partir de chaque entrée organisée peut être consulté à partir de la page de participation pertinente de l’ASC, ainsi que collectivement mis à disposition pour téléchargement.

CONCLUSIONS

CSA 2.0 fournit une nouvelle interface moderne à un ensemble de données soigneusement sélectionnées manuellement, très étendu, sur les résidus impliqués dans les sites catalytiques enzymatiques et le rôle fonctionnel qu’ils jouent dans la réaction. Une nouvelle méthode d’extrapolation fiable des annotations et de l’identification des résidus catalytiques aux structures homologues a été mise en œuvre. De plus, les entrées organisées peuvent être utilisées pour créer des modèles 3D des sites catalytiques, qui peuvent à leur tour être utilisés pour rechercher de nouvelles structures pour l’identification des sites catalytiques à l’aide d’un service CSS révisé. De plus, une nouvelle ontologie a été développée pour permettre le transfert d’annotations relatives à la catalyse enzymatique entre les ressources. Cela a été utilisé pour inclure des annotations CSA dans UniProtKB et MACiE.

La base de données est disponible à http://www.ebi.ac.uk/thornton-srv/databases/CSA, tandis que le service CSS se trouve à http://www.ebi.ac.uk/thornton-srv/databases/CSS. Les deux sont compatibles avec la plupart des navigateurs Web modernes. Toutes les données de l’ASC sont téléchargeables et librement accessibles à la communauté universitaire.

FINANCEMENT

Déclaration de conflit d’intérêts. Aucun déclaré.

REMERCIEMENTS

Les auteurs tiennent à remercier les efforts des nombreux annotateurs qui ont contribué aux entrées organisées par le CSA. Nous tenons également à remercier le Dr Syed A. Rahman d’avoir fourni les diagrammes de réaction marqués.

1

Consortium Uniprot
Mise à jour sur les activités de la Ressource Protéique Universelle (UniProt) en 2013

,

Acides nucléiques Res.

,

2013

, vol.

41

(pg.

D43

D47

)

2

Porter
CT

,

Bartlett
GJ

,

Thornton
JM

.

The Catalytic Site Atlas: a resource of catalytic sites and residues identified in enzymes using structural data

,

Nucleic Acids Res.

,

2004

, vol.

32

(pg.

D129

D133

)

3

Velankar
S

,

Alhroub
Y

,

Best
C

,

Caboche
S

,

Conroy
MJ

,

Dana
JM

,

Fernandez Montecelo
MATTE

,

van Ginkel
G

,

Golovin
A

,

Gore
SP

, et al.

PDBe: Banque de données sur les protéines en Europe

,

Acides nucléiques Rés.

,

2012

, vol.

40

(pg.

D445

D452

)

4

Holliday
GL

,

Andreini
C

,

Fischer
JD

,

Rarement
CECI

,

Almonacid
DEUX

,

Williams
ST

,

Pearson
WR

.

MACiE: explorer la diversité des réactions biochimiques

,

Acides nucléiques Rés.

,

2012

, vol.

40

(pg.

D783

D789

)

5

Rarement
S

,

Bashton
M

,

Holliday
G

,

Schrader
R

,

Thornton
J

.

Boîte à outils du Détecteur de sous-graphes de petites molécules (SMSD)

,

J. Cheminform.

,

2009

, vol.

1

pg.

12
6

Laskowski
RARE

.

PDBsum nouvelles choses

,

Acides nucléiques Rés.

,

2009

, vol.

37

(pg.

D355

D359

)

7

Fleischmann
A

,

Darsow
M

,

Degtyarenko
K

,

Fleischmann
You

,

Boyce
S

,

Axelsen
KB

,

Bairoch
A

,

Schomburg
D

,

Tipton
NF

,

Apweiler
R

.

IntEnz, the integrated relational enzyme database

,

Nucleic Acids Res.

,

2004

, vol.

32

(pg.

D434

D437

)

8

Union Internationale de Biochimie et de Biologie Moléculaire, Nomenclature, C. et Webb, CE (1992) Nomenclature des enzymes 1992: recommandations de la Comité de Nomenclature de l’Union Internationale de Biochimie et de Biologie Moléculaire sur la Nomenclature et la Classification des Enzymes / Préparé pour NC-IUBMB par Edwin C. Webb. Publié pour l’Union Internationale de Biochimie et de Biologie moléculaire par Academic Press, San Diego

9

Gomez
J

,

Garcia
LJ

div>,

Salazar
GA

,

Villaveces
J

,

Gore
S

,

Garcia
A

>,

Martin
MJ

,

Launay
G

,

Alcantara
R

,

Del-Toro
N

, et al.

BioJS : un framework JavaScript open source pour la visualisation de données biologiques

,

Bioinformatique

,

2013

, vol.

29

(pg.

1103

1104

)

10

Sierk
ML

,

Pearson
WR

.

Sensibilité et sélectivité dans la comparaison de la structure des protéines

,

Protéine Sci.

,

2004

, vol.

13

(pg.

773

785

)

11

Blake
JA

,

Dolan

div>

M

,

Drabkin
H

,

Hill
DP

,

It
N

,

Sitnikov
D

,

Bridges
S

,

Burgess
S

,

Buza
T

,

McCarthy
F

, et al.

Gene Ontology annotations and resources

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D530

D535

)

12

Hastings
J

,

de Matos
P

,

Dekker
A

,

Ennis
M

,

Harsha
B

,

Peel
N

,

Muthukrishnan
V

,

Owen
G

,

Turner
S

,

Williams
M

, et al.

The ChEBI reference database and ontology for biologically relevant chemistry: enhancements for 2013

,

Nucleic Acids Res.

,

2013

, vol.

41

(pg.

D456

D463

)

13

Smith
B

,

Ashburner
M

,

Rosse
C

,

Bard
J

,

Bug
You

,

Ceusters

>

Vous

,

Goldberg
LJ

,

Eilbeck
K

,

Irlande
A

,

Mungall

div>

CJ

, et al.

La Fonderie OBO: coordinated evolution of ontologies to support biomedical data integration

,

Nat. Biotechnol.

,

2007

, vol.

25

(pg.

1251

1255

)

14

Barker
JA

,

Thornton
JM

.

An algorithm for constraint-based structural template matching: application to 3D templates with statistical analysis

,

Bioinformatics

,

2003

, vol.

19

(pg.

1644

1649

)

Notes de l’auteur

Adresses actuelles: Gemma L. Holiday, Université de Californie, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, États-Unis.Julius O. B. Jacobsen, Institut Wellcome Trust Sanger, Campus génomique Wellcome Trust, Hinxton, Cambridge CB10 1SD, Royaume-Uni.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.