メタゲノム配列群からの新規ゲノム検出法 の変更点


[[研究内容紹介]]
#contents

*大量な環境由来ゲノム断片配列の同じ由来と考えられる生物種ごとへの再構成 [#se9f053e]

 科学的・産業的に興味深い有用遺伝子が乗っているゲノム断片が、メタゲノム解析で見出されても、この有用遺伝子を持つゲノムが他にどのような遺伝子類を持ち、どのような遺伝子システムや代謝経路を構成しているのかを知ることは困難である。混合ゲノム試料を断片化しクローン化した段階で、大半の遺伝子類が泣き別れを起こしているので、それらの相互関係を追跡することが不可能に見える。勿論、混合ゲノム解析であっても、優先種が存在する場合には、ショットガン法で大量なゲノム断片配列を蓄積すれば、優先種ゲノムに関してはアセンブルによって、一本のゲノムを再構成出来る可能性はある。このようにしてメタゲノム解析で遺伝子システムの全貌が明らかになった優先種は存在はするが、そのような優先種は往々にして培養可能で研究の進んだ生物種自体か、それと近縁関係にあることが多い。優先種ではなく、新規性の高い難培養性の生物種に由来するゲノム断片配列を、情報学的に生物種ごとに再構築 (再集合) 出来れば、新規性の高い生物種に関しても遺伝子システムの一部ないしは概要が把握可能になる。
 
 メタゲノム解析で得られる大量なゲノム断片を、生物種や生物系統ごとに再集合を試みるには、混合ゲノム由来の大量配列と既知生物種の全配列を合わせたBLSOMを作成することが有効である。その例として、図1では[[Venterら>>http://www.ncbi.nlm.nih.gov/pubmed/15001713]]がScience誌で報告しているサルガッソ海由来の混合ゲノム解析で得られた大量の断片配列に加えて、[[Tysonら>http://www.ncbi.nlm.nih.gov/pubmed/14961025]]がNature誌で報告している鉱山廃水中のバイオフィルム由来の断片配列と、DNAデータベースに少なくとも10kb以上の配列が収録されている、生物種が既知の約1500種の原核生物に由来する全塩基配列を5kbに断片化した配列を加えて、BLSOMを作成した。鉱山廃水中のバイオフィルムは、ゲノムのcomplexityが低い試料としてTysonらが着目しており、サルガッソ海試料はゲノムのcomplexityが高い例としてVenterらが解析に使用している。計算機には生物種に関する情報を計算途中では一切与えずに、各配列の4連塩基頻度のみを与えているのに、バイオフィルムは数箇所の明瞭な小領域に集合(自己組織化)しており、この各小領域が同じ生物種由来であることを示唆している(図1Bの縦棒は配列数を表示)。一方、サルガッソ配列は広い分布を示し、79%は既知の生物種配列との重なりがなく(図1Cの縦棒は配列数を表示)、新規性の高いゲノム由来の配列と推定できる。詳細は著者らの原著論文 ([[Abe et al. DNA Res., 2005>http://www.ncbi.nlm.nih.gov/pubmed/16769690]]; [[Abe et al., Polar Biosci., 2006>http://polaris.nipr.ac.jp/~penguin/polarbiosci/issues/pdf/2007-Abe.pdf]]; [[Uehara et al., Genes Gent. Syst., 2011>http://www.ncbi.nlm.nih.gov/pubmed/21498923]]) を参照下さい。環境由来ゲノムのゲノム別での再構築が可能となれば、特定の環境中に生息する各生物種が持つ代謝経路の概要の推定が可能となり、微生物群集が作り上げている集団としての生命システムの解明の手がかりとなる。
 メタゲノム解析で得られる大量なゲノム断片を、生物種や生物系統ごとに再集合を試みるには、混合ゲノム由来の大量配列と既知生物種の全配列を合わせたBLSOMを作成することが有効である。その例として、図1では[[Venterら>http://www.ncbi.nlm.nih.gov/pubmed/15001713]]がScience誌で報告しているサルガッソ海由来の混合ゲノム解析で得られた大量の断片配列に加えて、[[Tysonら>http://www.ncbi.nlm.nih.gov/pubmed/14961025]]がNature誌で報告している鉱山廃水中のバイオフィルム由来の断片配列と、DNAデータベースに少なくとも10kb以上の配列が収録されている、生物種が既知の約1500種の原核生物に由来する全塩基配列を5kbに断片化した配列を加えて、BLSOMを作成した。鉱山廃水中のバイオフィルムは、ゲノムのcomplexityが低い試料としてTysonらが着目しており、サルガッソ海試料はゲノムのcomplexityが高い例としてVenterらが解析に使用している。計算機には生物種に関する情報を計算途中では一切与えずに、各配列の4連塩基頻度のみを与えているのに、バイオフィルムは数箇所の明瞭な小領域に集合(自己組織化)しており、この各小領域が同じ生物種由来であることを示唆している(図1Bの縦棒は配列数を表示)。一方、サルガッソ配列は広い分布を示し、79%は既知の生物種配列との重なりがなく(図1Cの縦棒は配列数を表示)、新規性の高いゲノム由来の配列と推定できる。詳細は著者らの原著論文 ([[Abe et al. DNA Res., 2005>http://www.ncbi.nlm.nih.gov/pubmed/16769690]]; [[Abe et al., Polar Biosci., 2006>http://polaris.nipr.ac.jp/~penguin/polarbiosci/issues/pdf/2007-Abe.pdf]]; [[Uehara et al., Genes Gent. Syst., 2011>http://www.ncbi.nlm.nih.gov/pubmed/21498923]]) を参照下さい。環境由来ゲノムのゲノム別での再構築が可能となれば、特定の環境中に生息する各生物種が持つ代謝経路の概要の推定が可能となり、微生物群集が作り上げている集団としての生命システムの解明の手がかりとなる。

#ref(Fig1.png,center,nowrap,Fig1,70%)

CENTER:図1 既知微生物1502種と環境由来DNA断片配列でのBLSOM