PEMS のバックアップソース(No.1)

[[Bioinformatics Laboratory]]

*BLSOMを用いたメタゲノム配列に対する系統推定と微生物群集比較 [#lb7219fb]

メタゲノム解析で得られた多様な環境に由来するゲノム断片配列が、国際塩基配列データベースに1,700万件以上も収録されているが、その大半は新規性が高いこともあり生物系統の情報が付与されず、機能情報もなしに、利用価値が低いままに残されている。新規性の高い微生物に由来するゲノム断片配列について、その由来生物の系統をBLSOMで推定するためには、現時点で塩基配列が解読されている全ての生物種が既知な微生物について、各ゲノムのオリゴヌクレオチド頻度の特徴をBLSOMで予め把握した上で、この既知微生物ゲノムとの類似性を解析する必要がある。着目した環境試料から得られた全断片配列を解析すれば、どれだけの生物種がどのような割合で混在していたのかを把握可能となる。自然環境試料のメタゲノム解析では、原核生物だけでなく真核生物のゲノムDNAが混入している可能性が高い。臨床試料のような医学試料についてもメタゲノム解析が可能なことから、新規感染症の原因となる未知病原微生物の探索にも利用可能である。このような医薬学分野での混合ゲノム試料を対象とした場合でも、ヒトのみならず広範囲の真核生物由来のDNAの混入が想定される。ウイルスやミトコンドリアやクロロプラストやプラスミド等をも含む、既知の全塩基配列を対象にした大規模BLSOMを作成しておくことが望ましい。この目的で作成した図1Aの大分類BLSOM上へ、バーミューダ近くのサルガッソ海から汲み上げた海水中に存在していた多数の生物種の混合ゲノム試料に由来する、大量なゲノム配列断片(1kb以上の配列21万件)をマッピングした(図1B)。約70%のサルガッソ海由来配列が原核生物の領域にマップされ、残りの配列は真核生物やウイルスの領域にマップされていた。
次に、原核生物の領域にマップされ配列類の原核生物内での系統を知る目的で、図2Aでは2,389種の既知の原核生物に由来する断片化サイズ5-kbの大量ゲノム断片配列を対象にした、縮退4連続塩基のBLSOMを作成しておいた(ここでは、原核生物の系統群BLSOMと呼ぶ)。この系統群BLSOM作成に使用した生物種が既知の2,389種の原核生物について、それらの28の系統群への分離を調べると、85%レベルで各系統群を反映した領域に分離(自己組織化)していた(図2A)。100%の分離には至っていないが、その主な原因は異種ゲノム間での遺伝子類の水平伝播によると考えている。図1Bにおいて先に原核生物の領域にマップされていたサルガッソ海由来のメタゲノム配列(14万件)を、この原核生物の系統群BLSOMへマッピングしたところ、BLSOM上の広範囲領域に散在しており、広範な生物系統に由来することが明らかとなった (図2B)。興味深いことに、優先種や優先属を反映すると考えられる、高密度にメタゲノム配列がマップされた領域も見られている。総合すると、原核生物の系統群の推定については、サルガッソ海由来の断片配列の約半数について、系統情報の付与が可能となった。このような手順で、着目環境に生息する微生物群集の生物系統の分布を知ることが可能となり、細菌叢の多様性を把握できる(図2C)。さらに解析を進めて、系統群別に既知の生物種の配列で予め作成しておいたBLSOM上へマッピングを続けることで、属や種レベルでの詳細な系統推定が可能となっている(8。このように真核生物・原核生物などの生物ドメイン、微生物の系統群、属種レベルと多段階的に生物系統を絞り込んでゆくことで、より詳細な系統推定が可能となる。さらには、得られた環境由来断片配列の新規性についても、多様な生物系統のレベルで把握可能であり、新規性の高い配列の効率的な検出が行える。BLSOMを用いた系統推定の解析の流れを図3にまとめた。
国際塩基配列データベースにて公開されている様々な環境由来の断片配列を対象に、図3の系統推定法を実施することにより、環境間での微生物の多様性を比較することが可能である(図4)。各環境での生物群集システムが確立してきた歴史性を、進化の視点を加味して把握することは、生物多様性の研究として興味深く、難培養性微生物のゲノム資源の活用においても基礎的な有用情報を提供できる。本稿では主に原核生物を対象とした系統推定を述べてきたが、BLSOMマップの種類を変えることにより(図3)、真核生物やウイルス等の他の生物系統についても系統推定が可能である。現在、海水中に豊富に存在するウイルスに着目したメタゲノム解析も報告されている(19。ウイルスゲノムにはrDNAが存在しないので、系統推定法として広く普及しているrRNA配列を用いた系統推定は不可能である。完全長が解読されたウイルスゲノムの全体を対象にしたBLSOM解析を行ったところ、系統を反映した分離が見られた。オルソログ配列セットや配列のアラインメントに依存することなく、ウイルス由来の断片配列の選別と、ウイルス内での系統推定を行うことが可能となっている。人類が現時点で知りうるウイルスやミトコンドリアを含む全ゲノム配列を一枚の大規模BLSOM上で分離(自己組織化)し公開することは、医薬学を含む広いライフサイエンス分野のみならず、関連の産業分野に対しても、世界的に類例にない新規で大規模な基盤ゲノム情報の提供となる。

*解析ソフトウェア:PEMS (Phylogenetic Estimation of Metagenomic seuence using BLSOM) [#ffa77890]