GTPS の履歴(No.1)


研究内容紹介

GTPS(Gene Trek in Prokaryote Space)

現在までに原核生物からヒトに至る広範な生物種のゲノム配列が決定され、ゲノム上のタンパク質コード領域 (CDS) をはじめとする遺伝子情報が国際塩基配列データベースから公開されている。公開されている微生物ゲノムのORFの予測方法を調査したところ、各プロジェクトの間で遺伝子領域予測プログラムやORF判定のパラメーター設定に大きな差異が存在することが分かった。また、公開されているアノテーションの判断基準が透明でない場合や曖昧な例も多々存在した。さらに、アノテーションに使用された参照データベースのバージョンが共通でないという問題があった。したがって、公開されている遺伝子情報の内容をそのまま比較ゲノム解析に利用するのは危険であり、アノテーション情報の確認・再アノテーションの必要性が明らかになった。
ここで、GTOPによるアミノ酸配列からタンパク質産物の2次構造と3次構造の予測実績を図1に示す。図1は、blastによる予測に対してpsi-blastによる予測が勝っていることとともに、2001年以来予測率があがっていることを示している。この予測率の上昇は実は参照データベースの一つであるPDBから公開されるタンパク質の立体構造件数が増加したことによる。すなわち、図1は継続的な再解析が必要なことを明示している。そこで、我々はDDBJから公表された微生物ゲノムデータのアノテーションの再評価を行った。以下では、本解析をGene Trek in Prokaryote Space (GTPS)[2]と呼ぶ。

GTPSは平成15年度に、平成15年7月までにDDBJで公開された123株の微生物完全長ゲノムデータを対象に実施し(2003年版)、平成16年度183株(2004年版)、平成17年度303株(2005年版)と追加・更新を行っている。そのワークフローの概要を図2に示す。

図2. GTPSワークフロー

GTPSのプロジェクトと平行して、DDBJのエントリー単位ではなくゲノム単位で微生物ゲノムデータを網羅したGenome Information Broker (GIB)を維持してきたが[3]、このGIBからゲノム配列データを取得し、共通のプロトコルで網羅的に解析し、ORF予測を行う。次に、候補ORFをアミノ酸に翻訳後、相同性検索とモチーフ検索を行い、その結果を総合的に判断して絞り込んだORFを対象にして、予め設定したルールに従って、確実性の観点から候補ORFをA~Xのランクに分類した(表1)。2003年版GTPS(表のver.2003)では、機能が明確なランクAから機能について何らかの手がかりがあるランクDまでのCDSが374,914件となった。これに対して、DDBJに登録されていたORFは362,543件であった。この差はGTPSによって新たに発見されたORFである可能性がある。事実、GTPS解析で予測されたCDSが実験由来のデータと一致する事例が出てきた。図3にその一例を示すが、図の中の赤い矢印の領域は、DDBJから公開されているゲノム配列データにはORFとしてアノテーションされていなかったが、GTPSの結果、ORFの可能性が高い領域であった。その後、Swiss-ProtでもGTPSと同じアノテーションがつけられていた。また、GTPSの成果は、大腸菌ゲノムの国際協力による再アノテーションにも採用された[4]。
GTPSで対象とした延べゲノムサイズはおよそ、2003年版0.4ギガbp、2004年版0.6ギガbpそして2005年版で1ギガbpに達し、評価対象のORF数も120万件を超えている。我々のデータ増加率の想定を越え、データが増加しており、我々の計算機資源を用いてGTPSワークフローを実行すると4ヶ月を超えるようになった。特に計算時間がかかる処理は、モチーフ検索ツールであるInterProScanの実行であり、他の部分と比べ、約30倍以上の計算時間が必要となっていた。本ワークフローでは、InterProScanをPCクラスタ上で効率よく実行するにあたり、ジョブ制御は独自に作成したスクリプトを使用していたが、現在は、理化学研究所情報基盤センターのご協力により、理化学研究所の大規模PCクラスタ上でのInterProScanの実行環境、ならびに、ジョブ制御機能を構築して頂き、大規模計算を実施することが可能となった。理化学研究所での大規模計算により、本ワークフローの迅速な更新作業を行うことが可能となった(図4)。