ゲノムサインとその生物学的な意味の解明 の変更点


[[研究内容紹介]]

*ゲノム配列に潜む連続塩基頻度の生物種による特徴的なサイン(Genome Signature) [#xa9bfc65]
 BLSOM解析では、計算機に生物種の情報を与えていないのに、連続塩基の頻度パターンの類似度のみで、断片配列の大半が生物種ごとに高精度に分類されていた(図1A)。単一の生物種のみの配列からなる格子点は生物種ごとに色分けし、異なる生物種に由来する配列が混在する格子点は黒とした。ヒト(図1BのH)、フグ(F)、ゼブラフィシュ(Z)、イネ(R)、シロイズナズナ(A)、線虫(C)はゲノムサイズが大きいので、多数の断片配列を与えており、SOM上で大きな領域を占有する。異なる生物種の配列が混在する格子点は、100 kbのSOMでは殆ど見られない。10 kb の配列より、100 kbの配列の方が分離能が高いことを示す。例えば、ヒト配列の場合、10 kb配列のSOMでは97%以上が、100 kbの配列では99%以上が、ヒトの領域 (H) 内に位置していた(この解析では、ヒトゲノムの場合、配列の解読がほぼ完了した10本の染色体の配列のみを用いている)。
 BLSOM解析では、計算機に生物種の情報を与えていないのに、連続塩基の頻度パターンの類似度のみで、断片配列の大半が生物種ごとに高精度に分類されていた(図1A)。単一の生物種のみの配列からなる格子点は生物種ごとに色分けし、異なる生物種に由来する配列が混在する格子点は黒とした。ヒト(図1BのH)、フグ(F)、ゼブラフィシュ(Z)、イネ(R)、シロイズナズナ(A)、線虫(C)はゲノムサイズが大きいので、多数の断片配列を与えており、BLSOM上で大きな領域を占有する。異なる生物種の配列が混在する格子点は、100 kbのBLSOMでは殆ど見られない。10 kb の配列より、100 kbの配列の方が分離能が高いことを示す。例えば、ヒト配列の場合、10 kb配列のBLSOMでは97%以上が、100 kbの配列では99%以上が、ヒトの領域 (H) 内に位置していた(この解析では、ヒトゲノムの場合、配列の解読がほぼ完了した10本の染色体の配列のみを用いている)。
 図1Aでは、4連塩基の方が、3連塩基よりもやや分離能が良い。連塩基の長さの選択は、解析する配列の長さと関係する。我々は、5連塩基の1024次元空間や6連塩基の4096次元空間を解析したことがあるが、多次元になるに従い計算時間が膨大になるので、別種の工夫が必要と考えられる。

* ゲノムサイン(Genome Signature)の実体とその生物学的な意味 [#w03bb4c5]
 それでは、各生物のゲノムの単語の好みはどのようなものであろうか。計算機がどの連塩基に注目したのかを知る方法を、図1Bで紹介する。各連文字について、BLSOMのどの領域の格子点群で好かれ、どの領域で嫌われていたのかを数値化し、赤色と青色で表示した。ランダムな配列から予想される頻度に近い場合は、白色で示す。図1Bで紹介する4連塩基において好みの程度が変化する部位は、図1Aの生物種の境界に一致していた。重要なことは、単一の単語よりは、複数の単語の組み合わせパターンでゲノム個性がより鮮明になる点にある。それがゲノムサイン(Genome Signature)の実体をなすが、その生物学的な機能や、形成された進化機構が興味深い。生物種固有の特徴を生む原因としては、以下のようなものが考えられる。
----
+突然変異やその修復機構と関係する。G+C%として表現されるゲノムの塩基組成は、変異や修復機構を反映する。
+危険性のある(有害な)配列を避ける。原核生物の場合、その生物種の持つ制限酵素が切断する4塩基が特徴的に低頻度で、クラスタ化の要因であった(Abe et al. 2003)。メチル化酵素を持つとはいえ、危険な切断配列が特徴的に低頻度である。
+広範囲の生物種、特に高等真核生物においては、反復配列がゲノム上に散在しており、総計としてゲノムの大きい領域を占めることがある。但し、生物種別にクラスタ化する上で、反復配列が主要因でないことが判明している。 
+重要なシグナル(例えば、転写因子と配列特異的に安定な結合をするシグナル)は、塩基組成から得られるランダム配列の予測値から明瞭にずれる。転写因子に対して高い配列依存性を示し、安定に結合するシグナル配列は、ランダム配列からの予想値よりも低頻度に出現する傾向が見られた。
----

 統計数理ならびに情報学的視点から、暗号文を含む文書類の出現頻度解析(Word Count)として、4)は特に興味深い。ATGCからなる長文(ゲノム配列)だけが与えられても、各生物が重要にしているシグナルを推定できる可能性が示唆されている。これからのゲノム科学は、ポストゲノムと呼ばれる時代を迎えつつある。塩基配列の解読が行われるが、通常の分子生物学や生化学の実験が殆ど行われないゲノムが急増している。従来は実験的な研究が行われてきた課題を、極力in silico実験(計算機を用いた解析)で代行することが重要になる。教師なしのアルゴリズムであるSOMは、正にこの目的に合致している。ゲノムに存在する機能上重要なシグナル類は、通常は3連や4連塩基よりは長い場合が多い。広範囲のゲノムについて、5-8連塩基へとSOM解析を進めれば、シグナルの候補配列のin silico探索が可能と考えられる。
 統計数理ならびに情報学的視点から、暗号文を含む文書類の出現頻度解析(Word Count)として、4)は特に興味深い。ATGCからなる長文(ゲノム配列)だけが与えられても、各生物が重要にしているシグナルを推定できる可能性が示唆されている。これからのゲノム科学は、ポストゲノムと呼ばれる時代を迎えつつある。塩基配列の解読が行われるが、通常の分子生物学や生化学の実験が殆ど行われないゲノムが急増している。従来は実験的な研究が行われてきた課題を、極力in silico実験(計算機を用いた解析)で代行することが重要になる。教師なしのアルゴリズムであるBLSOMは、正にこの目的に合致している。ゲノムに存在する機能上重要なシグナル類は、通常は3連や4連塩基よりは長い場合が多い。広範囲のゲノムについて、5-8連塩基へとBLSOM解析を進めれば、シグナルの候補配列のin silico探索が可能と考えられる。

#ref(Fig1.png,center,nowrap, Fig1,70%)

図1(A) 真核生物13種の10 kbならびに100 kb配列について、 3連および4連塩基の出現頻度について、SOMを行った際の生物種ごとの分布図。色付きの格子点は1つの生物種だけからなるものであり、生物種と色との対応は図中に示した。複数の生物種の配列を含む格子点は、黒色で示した。主成分分析で求めた初期ベクトルを持つ格子点への、配列の帰属の結果をPCAとして示した。格子点の色付けの方法は、学習後のSOMと同様に行っており、単一の生物種の配列のみが帰属した格子点の数は極端に少なく、殆どが黒色の領域である。 (B) 100 kb の4連塩基のSOM解析した際の、連続塩基ごとの頻度分布の例。ゲノムサイズの大きな生物種の領域は、大文字のアルファベットで示した。連続塩基ごとの頻度分布図においては、使用頻度の高い順にから赤・白・青と表示している。詳しくは、原著論文([[Abe et al. 2003>http://www.ncbi.nlm.nih.gov/pmc/articles/PMC430167/?tool=pubmed]])を参照下さい。
図1(A) 真核生物13種を対象に、断片化サイズ10 kbならびに100 kbにて、 3連および4連塩基に基づくBLSOMを行った際の生物種ごとの分布図。色付きの格子点は1つの生物種だけからなるものであり、生物種と色との対応は図中に示した。複数の生物種の配列を含む格子点は、黒色で示した。主成分分析で求めた初期ベクトルを持つ格子点への、配列の帰属の結果をPCAとして示した。格子点の色付けの方法は、学習後のSOMと同様に行っており、単一の生物種の配列のみが帰属した格子点の数は極端に少なく、殆どが黒色の領域である。 (B) 100 kb の4連塩基のSOM解析した際の、連続塩基ごとの頻度分布の例。ゲノムサイズの大きな生物種の領域は、大文字のアルファベットで示した。連続塩基ごとの頻度分布図においては、使用頻度の高い順にから赤・白・青と表示している。詳しくは、原著論文([[Abe et al. 2003>http://www.ncbi.nlm.nih.gov/pmc/articles/PMC430167/?tool=pubmed]])を参照下さい。