Abstract
Das Verständnis, welche katalytischen Reste in einem Enzym vorhanden sind und welche Funktion sie erfüllen, ist für viele biologische Studien von entscheidender Bedeutung, insbesondere für diejenigen, die zu neuen Therapeutika und Enzymdesigns führen. Die 2004 veröffentlichte Originalversion des Catalytic Site Atlas (CSA) (http://www.ebi.ac.uk/thornton-srv/databases/CSA), der die an der Enzymkatalyse beteiligten Reste in experimentell bestimmten Proteinstrukturen katalogisiert, hatte nur 177 kuratierte Einträge und verwendete einen vereinfachten Ansatz, um diese Annotationen auf homologe Enzymstrukturen auszudehnen. Hier präsentieren wir eine neue Version des CSA (CSA 2.0), die die Anzahl der kuratierten (968) und automatisch annotierten katalytischen Stellen in Enzymstrukturen erheblich erweitert und eine neue Methode für den Annotationstransfer verwendet. Die kuratierten Einträge werden zusammen mit der Variation des Rückstandstyps aus dem Sequenzvergleich verwendet, um 3D-Vorlagen der katalytischen Stellen zu generieren, mit denen wiederum katalytische Stellen in neuen Strukturen gefunden werden können. Um die Übertragung von CSA-Annotationen auf andere Ressourcen zu erleichtern, wurde eine neue Ontologie entwickelt: die Enzymmechanismus-Ontologie, die die Übertragung von Annotationen auf die Ressourcen Mechanism, Annotation and Classification in Enzymes (MACiE) und UniProt Knowledge Base (UniProtKB) ermöglicht. Das CSA-Datenbankschema wurde neu gestaltet und sowohl die CSA-Daten als auch die Suchfunktionen werden in einer neuen, modernen Weboberfläche dargestellt.
EINLEITUNG
Enzyme stellen ∼45% der kollektiven Proteinprodukte aller Genome dar, die von Ressourcen wie der UniProt Knowledge Base (UniProtKB) (1) katalogisiert werden. Als biologische Katalysatoren erleichtern sie die vielen Stoffwechselprozesse und -wege, die für das Leben entscheidend sind und seit über 100 Jahren im Mittelpunkt von Studien von Biologen und Chemikern stehen. Sie sind auch einige der Hauptziele in der Arzneimittelentwicklung, wobei viele zugelassene Arzneimittel die Wirkung von Enzymen modifizieren, die an Krankheitsprozessen beteiligt sind. Darüber hinaus stehen sie häufig im Mittelpunkt biotechnologischer Anwendungen. Detaillierte Informationen über katalytische Rückstände und enzymaktive Zentren sind für das Verständnis der Beziehung zwischen Proteinstruktur und -funktionen, dem Design von Inhibitoren und dem Enzymdesign unerlässlich.
Der Catalytic Site Atlas (CSA) (2) wurde eingerichtet, um kuratierte Annotationen der wenigen hochkonservierten Reste bereitzustellen, die direkt an der katalytischen Aktivität von Enzymen beteiligt sind, deren Strukturen in der Proteindatenbank (PDB) hinterlegt wurden (3). Diese kuratierten Einträge können wiederum verwendet werden, um katalytische Reste in anderen Enzymstrukturen durch Homologie mit einer einfachen PSIBlast-Methode abzuleiten.
Die ursprüngliche Ressource enthielt 177 handbemalte Einträge und 2608 homologe Einträge und deckte ∼30% aller im HVE gefundenen EG-Nummern ab. Wir präsentieren hier eine neue Version des katalytischen Standortatlas-CSA 2.0. Wir haben die Anzahl der kuratierten Einträge deutlich auf 968 erhöht und implementieren eine neue, ausgefeiltere Methode zum Übertragen der Annotationen in homologe Strukturen, wodurch die Robustheit des Annotationstransfers erhöht wird. Die Erweiterung der kuratierten Einträge ermöglicht auch das Hinzufügen neuer 3D-Strukturvorlagen, die in einer Überarbeitung des Catalytic Site Search-Dienstes verwendet wurden. Darüber hinaus wurde das Datenbankschema neu gestaltet und in eine Schwesterdatenbank von Enzymmechanismen integriert: der Mechanismus, Annotation und Klassifizierung in Enzymen (MACiE) Datenbank (4). Wir haben auch eine neue Ontologie entwickelt, die Enzymmechanismus-Ontologie (EMO), die die Integration von CSA-Informationen in MACiE- und UniProtKB-Datenstrukturen ermöglicht und als kontrolliertes Vokabular zur Beschreibung von Aspekten der Proteinsequenz und -struktur mit chemischen und mechanistischen Begriffen über Ressourcen hinweg verwendet werden kann.
CSA-GEHALT
Die prinzipiellen Daten im CSA sind die Proteinreste aus experimentell bestimmten atomaren Strukturen, die als katalytisch definiert sind. Rückstände werden als katalytisch bezeichnet, wenn sie eines der folgenden Kriterien erfüllen: (i) Direkte Beteiligung am katalytischen Mechanismus; (ii) Verändert die pKA eines anderen Rückstands oder Wassermoleküls, das direkt am katalytischen Mechanismus beteiligt ist; (iii) Stabilisierung eines Übergangszustands oder Intermediärs; und (iv) Aktivierung eines Substrats. Beachten Sie, dass es keine Rückstände enthält, die ausschließlich an der Ligandenbindung beteiligt sind, und sich daher von anderen Ressourcen wie UniProtKB-Annotationen unterscheidet. Einträge werden in Bezug auf die abgeschiedene PDB-Struktur vorgenommen, mit dem Potenzial, viele katalytische Stellen innerhalb eines einzelnen Eintrags zu haben.
Anmerkungen zu katalytischen Rückständen werden entweder durch manuelle Kuration oder durch Sequenzvergleich vorgenommen. Einträge, die manuell annotiert werden sollen, werden aus der PDB basierend auf der Qualität der Struktur und dem verfügbaren experimentellen Nachweis der katalysierten Reaktion ausgewählt. Dazu gehören Details des katalytischen Mechanismus, die nach Möglichkeit auch durch experimentelle Daten validiert werden. Annotatoren bieten eine kurze Freitextbeschreibung des Enzyms sowie eine detailliertere Zusammenfassung des Enzymmechanismus. Die Reaktion selbst wird ebenfalls dargestellt und markiert, um die Änderungen der molekularen Unterstrukturen und Änderungen der Bindungsordnung / Valenz unter Verwendung eines Atom–Atom-Matching-Algorithmus zu zeigen, der im Small Molecule Subgraph Detector (SMSD) implementiert ist (5). Für jeden Rückstand in jeder katalytischen Stelle wird der funktionelle Teil des Rückstands aufgezeichnet sowie seine Funktion und sein Ziel unter Verwendung eines kontrollierten Vokabulars und einer kurzen Freitextbeschreibung, wie der Rückstand die Funktion ausführt, beschrieben. Evidence-Tags bieten einen direkten Link zu der Literatur, aus der die Anmerkungen abgeleitet wurden. Für jede katalytische Stelle kann eine Suche durchgeführt werden, die alle anderen katalytischen Stellen in der CSA zurückgibt, die die gleichen katalytischen Reste aufweisen, die nach ihren E.C.-Nummern gruppiert sind. Darüber hinaus werden Hyperlinks zu externen Ressourcen wie PDBSum (6) und IntEnz (7) bereitgestellt. Interne Verknüpfungen zu anderen Einträgen, die die gleiche E.C.-Nummer (8) oder Folge von Nummern oder PDB-Kennungen haben, werden hergestellt. Eine Zusammenfassung der für einen Eintrag angezeigten Datentypen finden Sie in Abbildung 1.
Übersicht der Daten für einen CSA-kuratierten Eintrag. Metadaten-Deskriptoren wie Enzymname und Spezies sowie interne Links zum Auffinden von Einträgen in der CSA, die gemeinsame Eigenschaften haben, sowie Links zu externen Webressourcen werden in einer Tabelle (A) angezeigt. Ein 3D-Viewer (B) zeigt die Enzymstruktur an und hebt jede der katalytischen Stellen (aus einem Pulldown-Menü) rot hervor. Ein Freitextbericht über die Gesamtreaktion und den Mechanismus wird bereitgestellt (C) mit einem Reaktionsdiagramm, das mit Gruppen markiert ist, die über die Reaktion und die Bindungsänderungen konserviert sind. (D) Zeigt die Anmerkungen, die für jeden katalytischen Rest in jeder katalytischen Stelle gehalten werden.
Übersicht der Daten für einen CSA-kuratierten Eintrag. Metadaten-Deskriptoren wie Enzymname und Spezies sowie interne Links zum Auffinden von Einträgen in der CSA, die gemeinsame Eigenschaften haben, sowie Links zu externen Webressourcen werden in einer Tabelle (A) angezeigt. Ein 3D-Viewer (B) zeigt die Enzymstruktur an und hebt jede der katalytischen Stellen (aus einem Pulldown-Menü) rot hervor. Ein Freitextbericht über die Gesamtreaktion und den Mechanismus wird bereitgestellt (C) mit einem Reaktionsdiagramm, das mit Gruppen markiert ist, die über die Reaktion und die Bindungsänderungen konserviert sind. (D) Zeigt die Anmerkungen, die für jeden katalytischen Rest in jeder katalytischen Stelle gehalten werden.
Entwickler, die an der Vorhersage von Proteinen unbekannter Funktion beteiligt sind, können die erweiterte Anzahl kuratierter Einträge verwenden, um die entwickelten Methoden zu trainieren und zu testen. Darüber hinaus können einzelne Benutzer auf kuratierte und von der Homologie abgeleitete Einträge zugreifen, um Details zu den katalytischen Resten in einer Struktur von Interesse zu erhalten, die für das Design weiterer Experimente nützlich sein kann. Die Benutzererfahrung wurde mithilfe der BioJS-Bibliotheken (9) verbessert, die ein 3D-Anzeigefeld sowie einen markierten Sequenzbetrachter bieten, der die katalytischen Rückstände hervorhebt.
Im Rahmen einer breiteren Integration von Ressourcen wurde die CSA mit einer Schwesterdatenbank MACiE zusammengeführt. Das Datenbankschema für die CSA-bezogenen Tabellen ist in Abbildung 2 dargestellt. Die CSA ist als relationale Datenbank konzipiert, die eine typische Linux-, Apache-, MySQL- und PHP-Plattform verwendet, die von JavaScript unter Verwendung der BioJS-Bibliothek unterstützt wird.
Das Datenbankschema für die CSA. Beziehungen zwischen Tabellen werden angezeigt. Die Daten werden in einer MySQL-Datenbank gespeichert.
Das Datenbankschema für die CSA. Beziehungen zwischen Tabellen werden angezeigt. Die Daten werden in einer MySQL-Datenbank gespeichert.
ABLEITEN KATALYTISCHER RÜCKSTÄNDE DURCH SEQUENZVERGLEICH
Einträge werden auch mit einer automatisierten Sequenzvergleichsmethode kommentiert, die die kuratierten Einträge verwendet, um katalytische Rückstände abzuleiten. 433 Proteinsequenzen aus der MACIE-Enzymmechanismus-Datenbank und die 911 für die CSA eindeutigen Sequenzen wurden extrahiert und unter Verwendung von Annotationen für Seitenketten-, Hauptketten-, modifizierte, Reaktanten- und Zuschauerreste markiert. CSA-Homologe im PDB- und Reviewed-Abschnitt von UniProtKB wurden mit SSEARCH36 (10) mit einem statistischen Signifikanzschwellenwert von E<10-6 identifiziert. SSEARCH Alignments verwendete die Option -V, um den Identitäts- / konservativen / nicht-konservativen Status der ausgerichteten annotierten funktionellen Reste aus den MACiE / CSA-Sequenzen auf die homologen Sequenzen in der PDB und SwissProt zu projizieren.
Die von homology abgeleiteten Einträge haben neben den Links zu externen Datenquellen in den kuratierten Einträgen auch einen internen Link zu den manuell annotierten Einträgen, der verwendet wurde, um katalytische Rückstände abzuleiten. Der CSA 2.0 bietet eine manuell kuratierte Ressource von 968 Enzymstrukturen und ihren katalytischen Stellen, einschließlich Informationen über den funktionellen Teil jedes katalytischen Rückstands und seine Rolle im Enzymmechanismus. Die Verwendung von Sequenzvergleichen erweitert diese Annotationen auf weitere 32 216 homologisch annotierte Strukturen, was insgesamt 34 096 annotierte Strukturen von möglichen 49 049 in der PDB abgelagerten Strukturen ergibt, die enzymatisch sind. Dies erweitert die 177 kuratierten Einträge und 2608 Einträge, die von homology in CSA 1.0 kommentiert wurden, erheblich. Darüber hinaus enthält die CSA 2.0 Einträge für 1189 E.C.-Nummern, die alle E.C.-Klassifizierungsklassen und -unterklassen sowie die meisten Unterunterklassen abdecken (Abbildung 3).
E.C. Berichterstattung in der CSA. Die Enzymkommission Klassifikation aller E.C. Codes, die von der Enzymkommission als bewurzelter Baum eingestuft wurden. Jede Hauptklasse ist mit (i) Oxidoreduktasen, (ii) Transferasen, (iii) Hydrolasen, (iv) Lyasen, (v) Isomerasen und (vi) Ligasen markiert. Jede E.C.-Nummer in der CSA ist rot gefärbt, wobei alle Hauptklassen und Unterklassen vorhanden sind und die meisten Unterklassen.
E.C. Berichterstattung in der CSA. Die Enzymkommission Klassifizierung aller E. C. Codes, die von der Enzymkommission klassifiziert werden, werden als verwurzelter Baum gerendert. Jede Hauptklasse ist mit (i) Oxidoreduktasen, (ii) Transferasen, (iii) Hydrolasen, (iv) Lyasen, (v) Isomerasen und (vi) Ligasen markiert. Jede E.C.-Nummer in der CSA ist rot gefärbt, wobei alle Hauptklassen und Unterklassen vorhanden sind und die meisten Unterklassen.
ENZYMMECHANISMUS-ONTOLOGIE
Obwohl die CSA- und MACiE-Ressourcen etwas parallel entwickelt wurden und somit ein gemeinsames Datenmodell teilen, ist es derzeit schwierig, diese mit Enzym-Annotationen in Ressourcen wie UniProtKB zu verknüpfen, da sich die Definitionen der Enzymeigenschaften und die in ihrer Beschreibung verwendeten Vokabulare unterscheiden. Obwohl Beschreibungen und Definitionen einiger der in allen drei Datenbanken enthaltenen Informationen in bestehenden Ontologien wie GO (11) und der ChEBI (12) -Ontologie vorgenommen werden, erwies es sich als alles andere als trivial, diese zu heiraten und einheitlich auf alle drei Datenbanken anzuwenden.Das CSA und seine Schwesterdatenbank, MACiE, verwenden ein kontrolliertes Vokabular, wobei MACiE ein detaillierteres Vokabular besitzt, da es sich auf Enzyme in einer viel größeren Tiefe konzentriert, um gründliche Beschreibungen der chemischen Reaktionsschritte zu enthalten. Ebenso erfasst der überprüfte Abschnitt des UniProtKB (UniProtKB / Swiss-Prot) auch enzymbezogene Daten auf einer breiteren Proteinsequenzebene, einschließlich Informationen zu katalytischen Resten. Anmerkungen werden sowohl als Freitext als auch mit einem unabhängig entwickelten kontrollierten Vokabular erstellt.
Zu diesem Zweck haben wir die EMO entwickelt, die auf dem für MACiE und die CSA entwickelten kontrollierten Vokabular aufbaut und der OBO Foundry vorgelegt wird (13). Dieses Vokabular (siehe Ergänzungsmaterial oder http://purl.bioontology.org/ontology/EMO) wurde erstellt, um die aktiven Komponenten der Enzymreaktionen (Cofaktoren, Aminosäuren und verwandte Liganden) und ihre Rolle in der Reaktion zu beschreiben. EMO baut darauf auf, indem es Schlüsselkonzepte und die Beziehungen zwischen ihnen formalisiert, die notwendig sind, um Enzyme und ihre Funktionen zu definieren. Dies beschreibt nicht nur die allgemeinen Merkmale eines Enzyms, einschließlich der E.C. Anzahl (katalytische Aktivität), 3D-Struktur und zelluläre Standorte, sondern ermöglicht auch die detaillierte Annotation des Mechanismus. Dieses mechanistische Detail kann entweder auf einer groben Ebene sein (Gesamtreaktion nur wie in der CSA erfasst) oder die detailliertere Granularität der Schritte und Komponenten, die erforderlich sind, um die gesamte chemische Umwandlung zu bewirken.
EMO ermöglicht das Zusammenführen vieler verschiedener Ressourcen, selbst wenn Anmerkungen nur teilweise erstellt werden, wodurch unvollständige Anmerkungen erweitert werden können. Die Kommunikation zwischen Datenbanken kann durch die Verwendung einer solchen universellen Ressource erleichtert werden, die unterschiedliche Begriffe einem gemeinsamen Datenmodell zuordnet. Alle Anmerkungen von CSA-kuratierten Einträgen wurden in die in UniProtKB bereitgestellten Anmerkungen integriert.
GENERIEREN VON 3D-VORLAGEN
Mit den neu kuratierten Einträgen ist es möglich, dreidimensionale Vorlagen zu erstellen, die nur aus den wenigen Atomen der aktiven Standortreste bestehen. Alternative Rückstandstypen für jeden katalytischen Rest in der Vorlage können in der Vorlage aus den äquivalenten Positionen aus den homologisch abgeleiteten Einträgen katalogisiert werden. Dies erweitert einen Satz von 149 Vorlagen, die aus CSA 1.0 erstellt wurden, auf insgesamt 584 Vorlagen aus CSA 2.0. Die Vorlagen können von Jess, einem schnellen und flexiblen Algorithmus zum Durchsuchen von Proteinstrukturen nach kleinen Gruppen von Atomen basierend auf geometrischen und chemischen Einschränkungen (14), verwendet werden, um neue Strukturen zu durchsuchen und potenzielle katalytische Stellen zu finden. Dies wurde in einem neuen Server CSS implementiert (http://www.ebi.ac.uk/thornton-srv/databases/CSS/). Benutzer dieses asynchronen Dienstes können entweder ihre eigene Strukturdatei hochladen oder eine hinterlegte Struktur (falls sie nicht bereits von der CSA annotiert wurde) anfordern, um mit den neuen Vorlagen gesucht zu werden. Die Ergebnisse werden basierend auf dem RMSD und einem Log-E-Wert eingestuft. Die Vorlage aus jedem kuratierten Eintrag kann sowohl von der CSA-Einstiegsseite aus aufgerufen als auch gemeinsam zum Download zur Verfügung gestellt werden.
SCHLUSSFOLGERUNGEN
CSA 2.0 bietet eine neue moderne Schnittstelle zu einem umfangreichen, manuell kuratierten Datensatz von Rückständen, die an enzymkatalytischen Stellen beteiligt sind, und der funktionellen Rolle, die sie bei der Reaktion spielen. Eine neue Methode zur zuverlässigen Extrapolation der Annotationen und Identifizierung von katalytischen Resten auf homologe Strukturen wurde implementiert. Darüber hinaus können die kuratierten Einträge verwendet werden, um 3D-Vorlagen der katalytischen Standorte zu erstellen, mit denen wiederum mithilfe eines überarbeiteten CSS-Dienstes nach neuen Strukturen zur Identifizierung katalytischer Standorte gesucht werden kann. Darüber hinaus wurde eine neue Ontologie entwickelt, um den Transfer von Annotationen zur Enzymkatalyse zwischen Ressourcen zu ermöglichen. Dies wurde verwendet, um CSA-Anmerkungen in UniProtKB und MACiE einzuschließen.
Die Datenbank ist unter http://www.ebi.ac.uk/thornton-srv/databases/CSA verfügbar, während der CSS-Dienst unter http://www.ebi.ac.uk/thornton-srv/databases/CSS zu finden ist. Beide sind mit den meisten modernen Webbrowsern kompatibel. Alle Daten im CSA sind herunterladbar und für die akademische Gemeinschaft frei verfügbar.
FINANZIERUNG
Erklärung zum Interessenkonflikt. Keiner erklärt.
DANKSAGUNG
Die Autoren bedanken sich bei den vielen Annotatoren, die zu den kuratierten Einträgen im CSA beigetragen haben. Wir möchten uns auch bei Dr. Syed A. Rahman für die Bereitstellung der markierten Reaktionsdiagramme bedanken.
,
,
, vol.
(S.
–
)
,
,
.
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
.
,
,
, vol.
(S.
–
)
,
,
,
,
, vol.
pg.
.
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
, iv In diesem Fall ist es wichtig, dass Sie sich an die Regeln halten, die Sie befolgen müssen.
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(S.
–
)
,
.
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
,
,
,
, et al.
,
,
, vol.
(pg.
–
)
,
,
,
,
,
,
,
,
,
, vol.
(S.
–
)
,
,
,
,
,
,
,
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
Anmerkungen des Autors
Gegenwärtige Adressen: Gemma L. Holiday, University of California, San Francisco, Box 2550, 1700 4th Street, San Francisco, CA 94143 – 2550, USA.Julius O. B. Jacobsen, Wellcome Trust Sanger Institut, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SD, Vereinigtes Königreich.