メタゲノム配列群からの新規ゲノム検出法 の履歴ソース(No.1)

[[研究内容紹介]]

[[研究内容紹介]]

*多様な環境に生息する生物種の多様性と系統の解析 [#wd0ecfc3]

300種を超える広範囲のゲノムが解読されたことで、自然環境に生息する微生物群の多様性解明や産業上有用な酵素の探索に関する、新しい視点でのゲノム解析研究が可能になりつつある。その典型例に、難培養性微生物類の混合試料を対象にしたゲノム解析(メタゲノム解析)がある。自然環境のみならず、体内で生育する微生物類の大半が実験室での培養が困難である。これら難培養性の微生物類は従来からの実験的なアプローチが難しかったため、未知に残されてきたゲノム群といえる。また新規性の高い有用遺伝子類を豊富に保有する可能性がありながらも、産業的に利用されずにきた。最近になって、塩基配列解読の迅速化と低価格化に伴い、微生物類を培養することなく混合ゲノムDNAとして回収し、大量の断片DNA配列を解読する方法論が開発され、メタゲノム解析と呼ばれている。新規性の高い広範囲のゲノムが解析でき、滅菌消毒を行った試料についても微生物類の検出や特定が可能となる。しかしながら、弱点として、混合ゲノム試料から得られた大量の断片配列の集合のみでは、各断片配列が由来する生物の系統やその種類と量比、それらの配列の新規性を推定することは難しい。理由は、新規性の高い遺伝子配列類については、研究が充分に進んでいるrRNA遺伝子(rDNA)等とは異なり、オルソログ配列のセットが存在せず、配列情報を元にした系統推定が困難なためである。申請者らは、オリゴヌクレオチド頻度のみで断片配列の生物種による高精度な分類が可能であるというSOMの特徴に基づき、この弱点を克服する新規な情報学的な基礎技術を確立した(Nature Biotechnology 2005, DNA Res. 2005)。3連や4連塩基の出現頻度のみで断片配列の系統分類が可能な画期的な方法であり、オルソログ配列セットや配列間のアラインメントも必要ないので、新規性の高い配列類の系統推定が行える。

本研究で用いる具体的な解析法について、環境由来のゲノム配列に応用した我々の解析例で説明する(図1)。米国のVenterらはバーミューダ沖の海水中の微生物集団から混合ゲノムDNAを回収し、約80万本の断片配列(総計で約1Gb)を決定し、約120万の遺伝子の候補を推定した。新規性の高い、産業的に有用な遺伝子配列を多数含むと考えられる。このような環境由来の大量ゲノム配列を対象に、生物系統の推定や多様性の実体を知ることが興味深く重要である。この目的で、まず図1Aでは、DNAデータベースに10kb以上の配列が収録されている、約1500種の既知原核生物種に由来する全DNA配列(総計で約1Gb)を5 kbに断片化し、4連塩基の出現頻度についてSOMを作成した。これら既知原核生物種に由来する断片配列について、25の主要な系統群への分類を行ったところ、約85%の配列が正しい系統を反映して分離していた(色別で表示)。Venterらの大量断片配列を、このSOM上へマップすることで、どの生物系統に属する配列がどのような量比で混在していたのかを推定できる。図中の”Sargasso配列 > 5kb” (5kb以上のcontig配列の解析)では、環境中での優先種の配列を解析できた(図中の緑色)。Sargasso配列全体では、存在量の少ない生物種に由来する配列も解析できた(連続塩基の出現頻度に着目しているので異なった長さの配列も解析できる)。予備的な解析で、1kb程度の短い配列であっても、それらの4連塩基頻度を、既知生物種の5 kb配列で作成したSOM上へマップすることで、系統群を精度高く推定できた(DNA Res. 印刷中)。SOM解析では、オルソログ配列のセットや配列間のアラインメントが必要でなく、新規性の高い配列類の系統推定には最適であり、異なる環境間での混合ゲノムの系統やその種類、正確な量比等を推定し、群集比較を行うための手法の確立を行った。

----
#ref(meta-1.PNG,center,nowrap,nolink,図1A)

#ref(meta-2.png,center,nowrap,nolink,図1B)
----

**難培養性生物群の多様性と系統推定のための、既知ゲノム配列全体を対象にしたSOMの作成 [#jdeb8807]
上記の図1Aでは、現時点で10kb以上の断片配列が存在する1500種の原核生物を対象にしていた。本申請の研究では、寄生や共生系等の複合生物系を対象として考えているので、原核生物にとどまらず、カビや原虫等の下等真核生物に加えて、オルガネラやウイルスやプラスミドの既知の全配列を対象にした大規模なSOMの作成が必要である。得られたSOMマップをWWW上で公開する。共生系等の複合生物系を対象とした場合、宿主からの水平伝播の過程や進化的由来についての基礎知見を得るための解析は、本申請における重要課題の一つである。図2Aの例については、原核生物の25の主要な系統群への分離に着目していた。本申請の研究においては、さらに詳細な各生物種への帰属も重要になる。未知配列類をまず系統群で大分類をした後に、帰属した系統群別のSOMへ再マップすることで、生物種への帰属が可能になる。予備的な研究で、微生物種間での高い分離能を既に確認している(DNA Res. 2005)。

**新規性の高いゲノム配列の効率的な探索。 [#lf186cb7]
図2Aで紹介したマッピングにおいては、新規性の高い生物種の配列が、既知生物の領域に無理やりマップされている可能性がある。この可能性は計算で容易に判定できるが、新規性の高いゲノムの配列を効率的に選別するには、混合ゲノム由来の大量配列と既知生物種の全配列を合わせてSOMを作成することが有効である。図2Bでは、上記の1500種の既知の原核生物種の全配列にSargasso海由来の全断片配列を加えてSOMを作成した。Sargasso海由来の断片配列のみからなる格子点を緑で示したが、これらは新規性の高い配列が分類されていると考えられる。Sargasso配列の約70%がこの領域に帰属しており、この分布を右図に示した(各格子点に分類された配列数を高さで表示した)。この領域に含まれている断片配列間を再分類することで新規微生物由来の配列群の抽出が可能となる。残りの30%は既知生物の領域に特定できた(既知生物の色付領域内の黒い格子点に対応する)。本申請が認められれば、海水や土壌など様々な環境中より取得された配列を元に、新規の難培養性微生物類を探索や極限環境中より得られた環境由来DNA配列を対象とした新規微生物の探索手法の確立を行い、環境由来DNA配列群をSOM上で分離し網羅的にカタログ化したい。ウイルスやプラスミドの配列を加えて分類しカタログ化しておけば、新規性の高い未知微生物を探索するための基礎データが提供できる。

**混合ゲノム由来の断片配列のin silicoゲノム再構成。 [#a15e149c]
上記の方法で混合ゲノム由来の断片配列がSOM上で分離(自己組織化)すれば、相同性検索法と以下ように組み合わせることで、環境由来のゲノム類について、遺伝子構成の概要が推定できる。広範囲の生物種で保存されている遺伝子類(例えばタンパク質合成やRNA合成に必須の遺伝子)については分子進化学的な研究が進み、詳細な系統研究に利用可能なオルソログ配列セットが整ってきている。分子進化学的な解析の進んだ、オルソログ遺伝子類が乗っている断片配列群についてのSOM上の位置を知り、ランドマークとして利用する。特定の種や属のランドマーク群で囲まれる(あるいは近接する)配列群を系統的に分類することで、オルソログ配列セットを持たない一般の大量配列を、特定の種や属に帰属させることが可能になる。言い換えれば、分子進化学的な解析の進んだ遺伝子配列類と、混合ゲノム解析の過程で別クローンとして泣き別れを起こした一般配列群とを、in silicoで再集合させる。オルソログ配列セットが存在しないが故に、相同性検索では系統推定が困難であった新規性の高い配列群の系統推定を可能にする。勿論、現段階では、種への分類ではなく、属や科への帰属の可能性が高いが、その環境の優先種であれば種への分類も可能となる。例えば、SOM法では、隣接格子点間の距離を求めるU-matrix法が知られており、同一ゲノム由来のように、類似性の特に高い配列を選択的に特定できる(論文作成中)。本申請の研究では、この面での技術改良も行なう。従来からの分子進化学的な手法とSOM法を組み合わせることで、新規性の高い生物種や属のゲノムについて、遺伝子構成の概略を明らかにすることが可能になる。