要約
酵素中の触媒残基であり、それらがどのような機能を果たすかを理解することは、多くの生物学研究、特に新しい治療法および酵素設計につながる研究にとって重要である。 実験的に決定されたタンパク質構造における酵素触媒に関与する残基をカタログ化する触媒サイトアトラス(CSA)(http://www.ebi.ac.uk/thornton-srv/databases/CSA)の元のバージョンは、177 ここでは、大幅に注釈転送のための新しい方法を利用して、酵素構造中のキュレーション(968)と自動的に注釈付き触媒部位の両方の数を拡大CSA(CSA2.0)の新 キュレーションされたエントリは、順番に新しい構造の触媒部位を見つけるために使用することができ、触媒部位の3Dテンプレートを生成するために、 他のリソースへのCSA注釈の転送を容易にするために、新しいオントロジーが開発されました:酵素のメカニズム、注釈と分類(MACiE)とUniProtナレッジベース(UniProtKB)リソースへの注釈の転送を可能にした酵素メカニズムオントロジー。 CSAデータベーススキーマが再設計され、CSAデータと検索機能の両方が新しい最新のwebインターフェイスで提示されています。
はじめに
酵素は、UniProt Knowledge Base(UniProtKB)(1)などのリソースによってカタログ化されたすべてのゲノムの集合的なタンパク質産物の≥45%を表しています。 生物学的触媒として、それらは生命が存在するために重要であり、100年以上にわたって生物学者および化学者による研究の焦点となってきた多くの代謝過程および経路を促進する。 それらはまた、医薬品開発における主要な標的の一部であり、多くの承認された薬物が疾患プロセスに関与する酵素の作用を改変するように作用 さらにそれらは頻繁に人間工学の適用のための焦点である。 触媒残基および酵素活性部位の詳細な情報は、タンパク質の構造と機能、阻害剤の設計および酵素設計の関係を理解するために不可欠である。
触媒サイトアトラス(CSA)(2)は、その構造がタンパク質データバンク(PDB)(3)に堆積されている酵素の触媒活性を引き受けるに直接関与している高度に保存された残基の少数のキュレーションアノテーションを提供するために設立されました。 これらのキュレーションされたエントリは、順番に、簡単なPSIBlast法を使用して、相同性を介して他の酵素構造中の触媒残基を推論するために使用することが
元のリソースには、177の手注釈付きエントリと2608の相同エントリが含まれており、PDBで見つかったすべてのEC番号の≥30%をカバーしていました。 ここでは、触媒サイトAtlas—CSA2.0の新しいバージョンを紹介します。 キュレーションされたエントリの数を968に大幅に増やし、注釈を相同構造に転送するための新しいより洗練された方法を実装し、注釈転送のロバスト性を向上させました。 キュレーションされたエントリの拡張はまた、触媒サイト検索サービスの改訂で使用されている新しい3D構造テンプレートの追加を可能にします。 さらに、データベーススキーマは再設計され、酵素メカニズムの姉妹データベースに統合されています: 酵素のメカニズム、注釈および分類(MACiE)データベース(4)。 また、Csa情報をMACiEおよびUniProtKBデータ構造の両方に統合することを可能にする新しいオントロジー、酵素メカニズムオントロジー(EMO)を開発し、リソース全体の化学およ
CSAコンテンツ
CSAに保持されている原理データは、触媒として定義されている実験的に決定された原子構造からのタンパク質残基である。 残留物に指定されている触媒による充実した次の各号のいずれかに該当基準(i)直接に触媒機構(ii)変更のpKAの他の残基または水分子に直接関与する酵素触媒機構(iii)安定化遷移状態の中間体、(iv)の活性化です。 リガンド結合のみに関与し、したがってUniProtKBアノテーションのような他のリソースとは異なる残基は含まれないことに注意してください。 エントリは、単一のエントリ内に多くの触媒部位を有する可能性を有する、寄託されたPDB構造に関して行われる。
触媒残基の注釈は、手動キュレーションまたは配列比較のいずれかによって行われます。 手動で注釈を付けるエントリは、構造の品質と触媒反応の利用可能な実験的証拠に基づいてPDBから選択されます。 これには触媒機構の詳細が含まれ、可能であれば実験データによっても検証されます。 アノテータは、酵素の簡単なフリーテキストの説明だけでなく、酵素のメカニズムのより詳細な要約を提供します。 反応自体も提示され、小分子サブグラフ検出器(SMSD)(5)で実装された原子–原子マッチングアルゴリズムを使用して、分子サブ構造の変化と結合順序/価数の変 各触媒部位の各残基について、残基の機能的部分、ならびにその機能および標的が制御された語彙および残基が機能をどのように実行するかの短いフリーテキストの説明を使用して記述されるように記録される。 証拠タグは、注釈がどこから派生した文献への直接リンクを提供します。 各触媒部位について、同じ触媒残基をそれらのEc番号によってグループ化したCS A中の他の全ての触媒部位を返す検索を実行することができる。 さらに、PDBSum(6)やIntEnz(7)などの外部リソースへのハイパーリンクも提供されています。 同じE.C.番号(8)またはシーケンスアクセッション番号またはPDB識別子を共有する他のエントリへの内部リンクが作成されます。 エントリに示されているデータの種類の概要を図1に示します。
CSAキュレーションされたエントリのために提示されたデータの概要。 酵素名や種などのメタデータ記述子、外部ウェブリソースへのリンクとともにプロパティを共有するCSA内のエントリを見つけるための内部リンクを表(A) 3Dビューア(B)は、酵素構造を表示し、(プルダウンメニューから)触媒部位のそれぞれを赤で強調表示します。 全体的な反応とメカニズムの自由テキストレポートは、反応と結合の変化を横切って保存された基でマークアップされた反応図で(C)提供されています。 (D)は、各触媒部位における各触媒残基について保持されている注釈を示す。
CSAキュレーションされたエントリのために提示されたデータの概要。 酵素名や種などのメタデータ記述子、外部ウェブリソースへのリンクとともにプロパティを共有するCSA内のエントリを見つけるための内部リンクを表(A) 3Dビューア(B)は、酵素構造を表示し、(プルダウンメニューから)触媒部位のそれぞれを赤で強調表示します。 全体的な反応とメカニズムの自由テキストレポートは、反応と結合の変化を横切って保存された基でマークアップされた反応図で(C)提供されています。 (D)は、各触媒部位における各触媒残基について保持されている注釈を示す。
未知の機能のタンパク質の予測に関与する開発者は、開発されている方法論を訓練し、テストするためにキュレーションされたエントリの拡張 さらに、個々のユーザーは、関心のある構造中の触媒残基の詳細を得るために、キュレーションされたおよび相同性由来のエントリの両方にアクセスすることができ、これはさらなる実験の設計に有用である可能性を秘めている。 ユーザーの経験は触媒作用の残余を強調するマークアップされた順序の視聴者と同様、3D観覧のパネルを提供するBioJSの図書館(9)を使用して高められた。
リソースのより広範な統合の一環として、CSAは姉妹データベースMACiEとマージされました。 CSA関連のテーブルのデータベーススキーマを図2に示します。 CSAは、BioJSライブラリを利用したJavaScriptによって支援される典型的なLinux、Apache、MySQL、PHPプラットフォームを使用したリレーショナルデータベースとして設計されています。
CSAのデータベーススキーマ。 テーブル間の関係が示されています。 データはMySQLデータベースに格納されます。
CSAのデータベーススキーマ。 テーブル間の関係が示されています。 データはMySQLデータベースに格納されます。
配列比較による触媒残基の推論
エントリはまた、触媒残基を推測するためにキュレーションされたエントリを利用する自動配列比較 MACIE酵素メカニズムデータベースから433タンパク質配列とCSAに固有の911配列を抽出し、側鎖、主鎖、修飾、反応物および観客残基の注釈を使用して標識した。 PDBおよびuniprotkbのレビューされたセクション内のCSAホモログは、E<10-6の統計的有意性しきい値を持つSSEARCH36(10)を使用して同定されました。 SSEARCHアラインメントは、−Vオプションを使用して、MACIE/CSA配列からの整列された注釈付き機能残基の同一性/保存的/非保存的状態を、PDBおよびSwissprot中の相同配列に投影した。
ホモロジーによって導出されたエントリは、キュレーションされたエントリに見られる外部データソースへのリンクに加えて、触媒残基を推測するために使用された手動で注釈されたエントリへの内部リンクも持っています。 CSA2.0は、各触媒残基の機能部分と酵素機構におけるその役割に関する情報を含む968の酵素構造とその触媒部位の手動でキュレーションされたリソー 配列比較の使用は、これらの注釈を相同性によって注釈されたさらに32 216の構造に拡張し、PDBに寄託された可能性のある49 049の構造のうち、酵素的である34 096の注釈された構造の合計を提供する。 これにより、CSA1.0の相同性によって注釈された177のキュレーションされたエントリと2608のエントリが大幅に拡張されます。 さらに、CSA2.0には、すべてのE.C.分類クラスとサブクラス、およびほとんどのサブサブクラスをカバーする1189個のE.C.番号のエントリがあります(図3)。
CSAでのE.C.カバレッジ。 すべてのEの酵素委員会の分類。C.に分類されるコードは、根の木として表される。 それぞれの主要なクラスは、(i)オキシドレダクターゼ、(ii)トランスフェラーゼ、(iii)加水分解酵素、(iv)リアーゼ、(v)イソメラーゼおよび(vi)リガーゼで標識されている。 CSA内の各E.C.番号は赤色で、すべての主要なクラスとサブクラスが存在し、ほとんどのサブサブクラスが存在します。
CSAでのE.C.カバレッジ。 酵素委員会によって分類されたすべてのE.C.コードの酵素委員会分類は、根付いた木としてレンダリングされました。 それぞれの主要なクラスは、(i)オキシドレダクターゼ、(ii)トランスフェラーゼ、(iii)加水分解酵素、(iv)リアーゼ、(v)イソメラーゼおよび(vi)リガーゼで標識されている。 CSA内の各E.C.番号は赤色で、すべての主要なクラスとサブクラスが存在し、ほとんどのサブサブクラスが存在します。
ENZYME MECHANISM ONTOLOGY
CSAとMACiEのリソースは幾分並行して開発されており、共通のデータモデルを共有していますが、酵素特性の定義とその説明で使用されるボキャブラリの違いにより、UniProtKBなどのリソース内の酵素アノテーションにリンクすることは現在困難です。 三つのデータベースすべてに保持されている情報のいくつかの記述と定義は、GO(11)やChEBI(12)オントロジーのような既存のオントロジーで行われているが、これらを結婚し、三つのデータベースすべてに均一に適用することは自明ではないことが証明された。
CSAとその姉妹データベースであるMACiEは制御された語彙を利用しており、MACiEは酵素に焦点を当ててより詳細な語彙を持っており、実行される化学反応ステップの徹底的な記述を含めることができます。 同様に、uniprotkb(UniProtKB/Swiss-Prot)のレビューされたセクションは、触媒残基に関する情報を含む、より広いタンパク質配列レベルで酵素関連データを捕捉する。 注釈は、フリーテキストと独立して開発された制御された語彙の両方を使用して作成されます。これに対処するために、我々はMACiEとCSAのために開発された制御された語彙に基づいて構築されたEMOを開発し、OBOファウンドリ(13)に提出されます。
これに対 この語彙(補足資料またはhttp://purl.bioontology.org/ontology/EMOを参照)は、酵素の反応の活性成分(補因子、アミノ酸、同族リガンド)と反応におけるそれらの役割を記述するために作成された。 EMOは、酵素とその機能を定義するために必要な重要な概念とそれらの間の関係を形式化することによってこれに基づいて構築されます。 これは、E.C.数(触媒活性)、3D構造および細胞位置を含む酵素の一般的な特徴だけでなく、メカニズムの詳細な注釈を可能にする。 この機械的詳細は、総レベル(CSAで捕捉された全体的な反応のみ)、または全体的な化学変換を行うために必要なステップおよび成分のより詳細な粒度
EMOでは、注釈が部分的にしか作成されていない場合でも、多くの異なるリソースを一緒に描画することができ、不完全な注釈を展開することができま データベース間の通信は、異種の用語を共通のデータモデルにマップするような普遍的なリソースの使用によって容易にすることができる。 CSAキュレーションされたエントリのすべての注釈は、UniProtKBで提供される注釈に統合されています。
3Dテンプレートの生成
新たにキュレーションされたエントリを使用して、活性部位残基のわずかな原子からなる三次元テンプレートを構築することが可能である。 鋳型内の各触媒残基の代替残基タイプは、相同性によって誘導されたエントリからの等価位置から鋳型内でカタログ化することができる。 これにより、CSA1.0から構築された149個のテンプレートのセットが、CSA2.0からの合計584個のテンプレートに拡張されます。 テンプレートは、幾何学的および化学的制約(14)に基づいて原子の小さなグループのタンパク質構造を検索するための高速かつ柔軟なアルゴリズムであるJessによって使用され、潜在的な触媒部位を見つけるために新しい構造を検索することができる。 これは新しいサーバー CSS(http://www.ebi.ac.uk/thornton-srv/databases/CSS/)で実装されています。 この非同期サービスのユーザーは、独自の構造ファイルをアップロードするか、新しいテンプレートを使用して検索する寄託された構造(CSAによってまだ注釈が 結果は、RMSDとログE値に基づいてランク付けされます。 各キュレーションされたエントリから作られたテンプレートは、関連するCSAエントリページからアクセスするだけでなく、総称してダウンロー
結論
CSA2.0は、酵素触媒部位に関与する残基と、それらが反応で果たす機能的役割のはるかに拡張された手動でキュレーションされたデータセットに新しい近代的なインターフェイスを提供します。 確実に注釈と相同構造への触媒残基の同定を外挿するための新しい方法が実装されています。 さらに、キュレーションされたエントリは、順番に改訂されたCSSサービスを使用して触媒部位同定のための新しい構造を検索するために使用すること さらに,資源間の酵素触媒に関する注釈の転送を可能にするための新しいオントロジーが開発された。 これは、UniProtKBとMACiEにCSA注釈を含めるために使用されています。データベースはhttp://www.ebi.ac.uk/thornton-srv/databases/CSAで利用できますが、CSSサービスはhttp://www.ebi.ac.uk/thornton-srv/databases/CSSで見つけることができます。 どちらも、ほとんどの最新のwebブラウザと互換性があります。 CSAのすべてのデータはダウンロード可能であり、学術コミュニティが自由に利用できます。
資金調達
利益相反に関する声明。 何も宣言していない。
謝辞
著者は、CSAのキュレーションされたエントリに貢献してきた多くの注釈者の努力に感謝したいと思います。 また、マークアップされた反応図を提供してくれたSyed A.Rahman博士に感謝したいと思います。
、
,
,vol.
(pg.
。
、
、
、vol.
(pg.
,
,
,vol.
(pg. /DIV>
、
,
,
,vol.
(pg.
,
,
,vol.
pg。
,
,
,vol.
(pg. /div>
,
,
,vol.
(pg.
–
)
/div>
/div>,
,
など。
、
、
、vol.
(pg.
–
)
、
,
,vol.
(pg.
、
、
など。
,
,
, vol.
(pg. /div>
ターナー
,
,
,vol.
(pg. 13
,
,
, vol.
(pg.
–
)
,
.
,
,
, vol.
(pg.
–
)
著者ノート
現在の住所:Gemma L.Holiday,University of California,San Francisco,Box2550,1700 4th Street,San Francisco,CA94143–2550,USA。Julius O.B.Jacobsen,Wellcome Trust Sanger Institute,Wellcome Trust Genome Campus,Hinxton,Cambridge CB10 1SD,UK.p>