PEMS の履歴(No.3)


Bioinformatics Laboratory
研究内容紹介

BLSOMを用いたメタゲノム配列に対する系統推定と微生物群集比較

 環境の保全や修復における微生物が持つ生物浄化能の重要性が明らかとなり、微生物生態系の全体像とその生物浄化能の把握は、環境システムを理解する上で非常に注目されている。近年、ゲノム混合物から直接ゲノム配列決定を行うメタゲノム解析が提唱され、様々な環境システム解明に向けた研究が行われている。多様な環境試料に対するメタゲノム解析が行われており、取得された断片ゲノム配列群に豊富に含まれる新規性の高い微生物やそれらが持つ科学的、産業的に有用な遺伝子を体系的に探索するための情報学的手法の開発が求められている。
 
 我々は、連続塩基頻度のみでゲノム配列断片の生物種による高精度に分類可能なアラインメントフリーな手法である一括学習型自己組織化マップ(BLSOM)を用いて、メタゲノム配列の系統分類や新規性の推定を行う手法を確立した(Abe et al. DNA Res., 2005)。土壌・海洋・動物体内由来等の大量メタゲノム配列を対象に、各配列の系統推定、異なる環境間での微生物群集の比較ゲノム解析を行い、その有用性を明らかにした。rDNAに代表されるようなオーソログ配列セットや配列アラインメントが不要であり、産業的に興味深い新規の高い遺伝子配列類の系統推定が可能となった。

 メタゲノム解析で得られた多様な環境に由来するゲノム断片配列が、国際塩基配列データベースに1,700万件以上も収録されているが、その大半は新規性が高いこともあり生物系統の情報が付与されず、機能情報もなしに、利用価値が低いままに残されている。新規性の高い微生物に由来するゲノム断片配列について、その由来生物の系統をBLSOMで推定するためには、現時点で塩基配列が解読されている全ての生物種が既知な微生物について、各ゲノムのオリゴヌクレオチド頻度の特徴をBLSOMで予め把握した上で、この既知微生物ゲノムとの類似性を解析する必要がある。着目した環境試料から得られた全断片配列を解析すれば、どれだけの生物種がどのような割合で混在していたのかを把握可能となる。自然環境試料のメタゲノム解析では、原核生物だけでなく真核生物のゲノムDNAが混入している可能性が高い。臨床試料のような医学試料についてもメタゲノム解析が可能なことから、新規感染症の原因となる未知病原微生物の探索にも利用可能である。このような医薬学分野での混合ゲノム試料を対象とした場合でも、ヒトのみならず広範囲の真核生物由来のDNAの混入が想定される。ウイルスやミトコンドリアやクロロプラストやプラスミド等をも含む、既知の全塩基配列を対象にした大規模BLSOMを作成しておくことが望ましい。この目的で作成した図1Aの大分類BLSOM上へ、バーミューダ近くのサルガッソ海から汲み上げた海水中に存在していた多数の生物種の混合ゲノム試料に由来する、大量なゲノム配列断片(1kb以上の配列21万件)をマッピングした(図1B)。約70%のサルガッソ海由来配列が原核生物の領域にマップされ、残りの配列は真核生物やウイルスの領域にマップされていた。

Fig1

 次に、原核生物の領域にマップされ配列類の原核生物内での系統を知る目的で、図2Aでは2,389種の既知の原核生物に由来する断片化サイズ5-kbの大量ゲノム断片配列を対象にした、縮退4連続塩基のBLSOMを作成しておいた(ここでは、原核生物の系統群BLSOMと呼ぶ)。この系統群BLSOM作成に使用した生物種が既知の2,389種の原核生物について、それらの28の系統群への分離を調べると、85%レベルで各系統群を反映した領域に分離(自己組織化)していた(図2A)。100%の分離には至っていないが、その主な原因は異種ゲノム間での遺伝子類の水平伝播によると考えている。図1Bにおいて先に原核生物の領域にマップされていたサルガッソ海由来のメタゲノム配列(14万件)を、この原核生物の系統群BLSOMへマッピングしたところ、BLSOM上の広範囲領域に散在しており、広範な生物系統に由来することが明らかとなった (図2B)。興味深いことに、優先種や優先属を反映すると考えられる、高密度にメタゲノム配列がマップされた領域も見られている。総合すると、原核生物の系統群の推定については、サルガッソ海由来の断片配列の約半数について、系統情報の付与が可能となった。このような手順で、着目環境に生息する微生物群集の生物系統の分布を知ることが可能となり、細菌叢の多様性を把握できる(図2C)。

Fig2

        図2.原核生物2,389種を対象としたBLSOM (原核生物系統群BLSOM)

さらに解析を進めて、系統群別に既知の生物種の配列で予め作成しておいたBLSOM上へマッピングを続けることで、属や種レベルでの詳細な系統推定が可能となっている(8。このように真核生物・原核生物などの生物ドメイン、微生物の系統群、属種レベルと多段階的に生物系統を絞り込んでゆくことで、より詳細な系統推定が可能となる。さらには、得られた環境由来断片配列の新規性についても、多様な生物系統のレベルで把握可能であり、新規性の高い配列の効率的な検出が行える。BLSOMを用いた系統推定の解析の流れを図3にまとめた。
 

Fig3

        図3. BLSOM法を用いた系統推定の概要
        (*: 新規性判定として、マップされた格子点の頻度ベクトルと入力配列の頻度ベクトルとの距離を指標として判定できる。)

 国際塩基配列データベースにて公開されている様々な環境由来の断片配列を対象に、図3の系統推定法を実施することにより、環境間での微生物の多様性を比較することが可能である(図4)。各環境での生物群集システムが確立してきた歴史性を、進化の視点を加味して把握することは、生物多様性の研究として興味深く、難培養性微生物のゲノム資源の活用においても基礎的な有用情報を提供できる。本稿では主に原核生物を対象とした系統推定を述べてきたが、BLSOMマップの種類を変えることにより(図3)、真核生物やウイルス等の他の生物系統についても系統推定が可能である。現在、海水中に豊富に存在するウイルスに着目したメタゲノム解析も報告されている。ウイルスゲノムにはrDNAが存在しないので、系統推定法として広く普及しているrRNA配列を用いた系統推定は不可能である。完全長が解読されたウイルスゲノムの全体を対象にしたBLSOM解析を行ったところ、系統を反映した分離が見られた。オルソログ配列セットや配列のアラインメントに依存することなく、ウイルス由来の断片配列の選別と、ウイルス内での系統推定を行うことが可能となっている。人類が現時点で知りうるウイルスやミトコンドリアを含む全ゲノム配列を一枚の大規模BLSOM上で分離(自己組織化)し公開することは、医薬学を含む広いライフサイエンス分野のみならず、関連の産業分野に対しても、世界的に類例にない新規で大規模な基盤ゲノム情報の提供となる。

解析ソフトウェア:PEMS (Phylogenetic Estimation of Metagenomic seuence using BLSOM)

上述の「BLSOMを用いた生物系統推定解析」をワークフロー化した解析ソフトウェアPEMSを公開しました。
ソフトウェアは、300塩基(設定ファイル内で変更可能)以上のマルチファスタ形式の塩基配列ファイルを入力するだけで、3段階(Kingdom->Phylum->Genus)での絞り込みによる生物系統推定を実施します(図4)。
出力結果としては、各配列の生物系統推定結果閲覧、各BLSOMマップ上でのマップ結果の閲覧&保存、生物系統推定結果の集計結果を得ることができます。

#ref(): File not found: "Fig4.png" at page "PEMS"

ダウンロード

  • PCの推奨仕様
    • CPU: Pentium4 2GHz 以上、デュアルコア以上もしくはハイパースレッド
    • Memory: 2GB 以上
    • HDD: 4GB 以上の残容量(スワップ領域は除く)
    • Video: 解像度1280 x 1024 ピクセル以上、色 16ビット以上
    • Network: NCBI データベースにアクセス可能なインターネット環境
  • OS
    • Microsoft Windows XP SP2 もしくは Microsoft Windows Vista
    • Microsoft .NET Framework 2.0 以上のランタイム
  • 【注意】
    本ソフトウェアは、負荷の高い計算をスレッドで処理することによって、ユーザインターフェースのレスポンスの低下を防いでいる。シングルコアの CPU の場合、本ソフトウェアの画面の再描画やボタンなどの反応が著しく低下する。このため、CPU に関してはデュアルコア以上、もしくは、ハイパースレッド仕様の CPU の利用を推奨する。

http://creativecommons.org/licenses/by-nc-nd/3.0/
この 作品 は クリエイティブ・コモンズ 表示 - 非営利 - 改変禁止 3.0 非移植 ライセンスの下に提供されています。

マニュアル: