メタゲノム配列群からの新規ゲノム検出法 の履歴の現在との差分(No.3)


  • 追加された行はこの色です。
  • 削除された行はこの色です。
#freeze
[[研究内容紹介]]
#contents

*大量な環境由来ゲノム断片配列の同じ由来と考えられる生物種ごとへの再構成 [#se9f053e]

 科学的・産業的に興味深い有用遺伝子が乗っているゲノム断片が、メタゲノム解析で見出されても、この有用遺伝子を持つゲノムが他にどのような遺伝子類を持ち、どのような遺伝子システムや代謝経路を構成しているのかを知ることは困難である。混合ゲノム試料を断片化しクローン化した段階で、大半の遺伝子類が泣き別れを起こしているので、それらの相互関係を追跡することが不可能に見える。勿論、混合ゲノム解析であっても、優先種が存在する場合には、ショットガン法で大量なゲノム断片配列を蓄積すれば、優先種ゲノムに関してはアセンブルによって、一本のゲノムを再構成出来る可能性はある。このようにしてメタゲノム解析で遺伝子システムの全貌が明らかになった優先種は存在はするが、そのような優先種は往々にして培養可能で研究の進んだ生物種自体か、それと近縁関係にあることが多い。優先種ではなく、新規性の高い難培養性の生物種に由来するゲノム断片配列を、情報学的に生物種ごとに再構築 (再集合) 出来れば、新規性の高い生物種に関しても遺伝子システムの一部ないしは概要が把握可能になる。
 
 メタゲノム解析で得られる大量なゲノム断片を、生物種や生物系統ごとに再集合を試みるには、混合ゲノム由来の大量配列と既知生物種の全配列を合わせたBLSOMを作成することが有効である。その例として、図1ではVenterらがScience誌(18で報告しているサルガッソ海由来の混合ゲノム解析で得られた大量の断片配列に加えて、TysonらがNature誌(20で報告している鉱山廃水中のバイオフィルム由来の断片配列と、DNAデータベースに少なくとも10kb以上の配列が収録されている、生物種が既知の約1500種の原核生物に由来する全塩基配列を5kbに断片化した配列を加えて、BLSOMを作成した。鉱山廃水中のバイオフィルムは、ゲノムのcomplexityが低い試料としてTysonらが着目しており、サルガッソ海試料はゲノムのcomplexityが高い例としてVenterらが解析に使用している。計算機には生物種に関する情報を計算途中では一切与えずに、各配列の4連塩基頻度のみを与えているのに、バイオフィルムは数箇所の明瞭な小領域に集合(自己組織化)しており、この各小領域が同じ生物種由来であることを示唆している(図1Bの縦棒は配列数を表示)。一方、サルガッソ配列は広い分布を示し、79%は既知の生物種配列との重なりがなく(図1Cの縦棒は配列数を表示)、新規性の高いゲノム由来の配列と推定できる。詳細は著者らの原著論文([[Abe et al. DNA Res., 2005>http://www.ncbi.nlm.nih.gov/pubmed/16769690]])を参照下さい。環境由来ゲノムのゲノム別での再構築が可能となれば、特定の環境中に生息する各生物種が持つ代謝経路の概要の推定が可能となり、微生物群集が作り上げている集団としての生命システムの解明の手がかりとなる。
 メタゲノム解析で得られる大量なゲノム断片を、生物種や生物系統ごとに再集合を試みるには、混合ゲノム由来の大量配列と既知生物種の全配列を合わせたBLSOMを作成することが有効である。その例として、図1では[[Venterら>http://www.ncbi.nlm.nih.gov/pubmed/15001713]]がScience誌で報告しているサルガッソ海由来の混合ゲノム解析で得られた大量の断片配列に加えて、[[Tysonら>http://www.ncbi.nlm.nih.gov/pubmed/14961025]]がNature誌で報告している鉱山廃水中のバイオフィルム由来の断片配列と、DNAデータベースに少なくとも10kb以上の配列が収録されている、生物種が既知の約1500種の原核生物に由来する全塩基配列を5kbに断片化した配列を加えて、BLSOMを作成した。鉱山廃水中のバイオフィルムは、ゲノムのcomplexityが低い試料としてTysonらが着目しており、サルガッソ海試料はゲノムのcomplexityが高い例としてVenterらが解析に使用している。計算機には生物種に関する情報を計算途中では一切与えずに、各配列の4連塩基頻度のみを与えているのに、バイオフィルムは数箇所の明瞭な小領域に集合(自己組織化)しており、この各小領域が同じ生物種由来であることを示唆している(図1Bの縦棒は配列数を表示)。一方、サルガッソ配列は広い分布を示し、79%は既知の生物種配列との重なりがなく(図1Cの縦棒は配列数を表示)、新規性の高いゲノム由来の配列と推定できる。詳細は著者らの原著論文 ([[Abe et al. DNA Res., 2005>http://www.ncbi.nlm.nih.gov/pubmed/16769690]]; [[Abe et al., Polar Biosci., 2006>http://polaris.nipr.ac.jp/~penguin/polarbiosci/issues/pdf/2007-Abe.pdf]]; [[Uehara et al., Genes Gent. Syst., 2011>http://www.ncbi.nlm.nih.gov/pubmed/21498923]]) を参照下さい。環境由来ゲノムのゲノム別での再構築が可能となれば、特定の環境中に生息する各生物種が持つ代謝経路の概要の推定が可能となり、微生物群集が作り上げている集団としての生命システムの解明の手がかりとなる。

*混合ゲノム由来の断片配列のin silicoゲノム再構成。 [#a15e149c]
 上記の方法で混合ゲノム由来の断片配列がSOM上で分離(自己組織化)すれば、相同性検索法と以下ように組み合わせることで、環境由来のゲノム類について、遺伝子構成の概要が推定できる。広範囲の生物種で保存されている遺伝子類(例えばタンパク質合成やRNA合成に必須の遺伝子)については分子進化学的な研究が進み、詳細な系統研究に利用可能なオルソログ配列セットが整ってきている。分子進化学的な解析の進んだ、オルソログ遺伝子類が乗っている断片配列群についてのBLSOM上の位置を知り、ランドマークとして利用する。特定の種や属のランドマーク群で囲まれる(あるいは近接する)配列群を系統的に分類することで、オルソログ配列セットを持たない一般の大量配列を、特定の種や属に帰属させることが可能になる。言い換えれば、分子進化学的な解析の進んだ遺伝子配列類と、混合ゲノム解析の過程で別クローンとして泣き別れを起こした一般配列群とを、in silicoで再集合させる。オルソログ配列セットが存在しないが故に、相同性検索では系統推定が困難であった新規性の高い配列群の系統推定を可能にする。勿論、現段階では、種への分類ではなく、属や科への帰属の可能性が高いが、その環境の優先種であれば種への分類も可能となる。例えば、SOM法では、隣接格子点間の距離を求めるU-matrix法が知られており、同一ゲノム由来のように、類似性の特に高い配列を選択的に特定できる([[Abe et al Polar Biosci., 2006>http://polaris.nipr.ac.jp/~penguin/polarbiosci/issues/pdf/2007-Abe.pdf]])。本申請の研究では、この面での技術改良も行なう。従来からの分子進化学的な手法とBLSOM法を組み合わせることで、新規性の高い生物種や属のゲノムについて、遺伝子構成の概略を明らかにすることが可能になる。
#ref(Fig1.png,center,nowrap,Fig1,70%)

#ref(Fig1.png,center,nowrap,Fig1)
CENTER:図1 既知微生物1502種と環境由来DNA断片配列でのBLSOM

図1 既知微生物1502種と環境由来DNA断片配列でのBLSOM