ゲノムサインとその生物学的な意味の解明 の履歴(No.2)


研究内容紹介

ゲノム配列に潜む連文字頻度の生物種による特徴的なサイン(Genome Signature)

 図1Aに示すように、計算機に生物種の情報を与えていないのに、連続塩基の頻度パターンの類似度のみで、断片配列の大半が生物種ごとに高精度に分類されていた。単一の生物種のみの配列からなる格子点は生物種ごとに色分けし、異なる生物種に由来する配列が混在する格子点は黒とした。ヒト(図1BのH)、フグ(F)、ゼブラフィシュ(Z)、イネ(R)、シロイズナズナ(A)、線虫(C)はゲノムサイズが大きいので、多数の断片配列を与えており、SOM上で大きな領域を占有する。異なる生物種の配列が混在する格子点は、100 kbのSOMでは殆ど見られない。10 kb の配列より、100 kbの配列の方が分離能が高いことを示す。例えば、ヒト配列の場合、10 kb配列のSOMでは97%以上が、100 kbの配列では99%以上が、ヒトの領域 (H) 内に位置していた(この解析では、ヒトゲノムの場合、配列の解読がほぼ完了した10本の染色体の配列のみを用いている)。
 計算機が行った分類が種による分類と合致していたことは、大半の断片配列の内部には、各生物種を特徴づける単語の使用頻度に関する個性が存在し、計算機がその生物のサイン(signature)のように識別したことを意味する。文章のWord Countの例としてこの内容を説明しよう。例えば、20人の米国の大統領について、各々500件で、合計10,000件の演説原稿を集めたとして、200種類の単語(例えば、power, military, peace, economy, university, science, women, music, -----)に着目したSOMを考える。各大統領には言葉の好みが存在するはずであり、各原稿について大統領の名前を計算機に教えていなくても、単語の使用頻度分布の似た原稿を近接させる(200次元空間での距離の近いデータを地図上で近付ける)ことで、各大統領の原稿群がクラスタ化すると考えられる。この演説原稿の例については、どのような種類の単語に着目するかで、大統領間の分離能は変わってくるはずである。一方、ゲノムの連続塩基の頻度解析では、3連か4連かの選択の余地はあるが、それが設定されれば、後は全ての連続塩基(単語)が解析の対象になり(3連塩基では64種類の単語)、曖昧さのない解析が可能となる。図1Aの例では、4連塩基の方が、3連塩基よりもやや分離能が良い。連塩基の長さの選択は、解析する配列の長さと関係する。我々は、5連塩基の1024次元空間や6連塩基の4096次元空間を解析したことがあるが、多次元になるに従い計算時間が膨大になるので、別種の工夫が必要と考えられる。

ゲノムサイン(Genome Signature)の実体とその生物学的な意味

 大統領の演説原稿を対象にしたSOMを行った場合、計算機は各大統領の言葉の好みを検出し、クラスタリングを行うと考えられる。それでは、各生物のゲノムの単語の好みはどのようなものであろうか。計算機がどの連塩基に注目したのかを知る方法を、図1Bで紹介する。各連文字について、SOMのどの領域の格子点群で好かれ、どの領域で嫌われていたのかを数値化し、赤色と青色で表示した。ランダムな配列から予想される頻度に近い場合は、白色で示す。図1Bで紹介する連塩基において好みの程度が変化する部位は、図1Aの生物種の境界に一致していた。重要なことは、単一の単語よりは、複数の単語の組み合わせパターンでゲノム個性がより鮮明になる点にある。それがゲノムサイン(Genome Signature)の実体をなすが、その生物学的な機能や、形成された進化機構が興味深い。生物種固有の特徴を生む原因としては、以下のようなものが考えられる。


  1. 突然変異やその修復機構と関係する。G+C%として表現されるゲノムの塩基組成は、変異や修復機構を反映する。
  2. 危険性のある(有害な)配列を避ける。原核生物の場合、その生物種の持つ制限酵素が切断する4塩基が特徴的に低頻度で、クラスタ化の要因であった(Abe et al. 2003)。メチル化酵素を持つとはいえ、危険な切断配列が特徴的に低頻度である。
  3. 広範囲の生物種、特に高等真核生物においては、反復配列がゲノム上に散在しており、総計としてゲノムの大きい領域を占めることがある。但し、生物種別にクラスタ化する上で、反復配列が主要因でないことが判明している。 
  4. 重要なシグナル(例えば、転写因子と配列特異的に安定な結合をするシグナル)は、塩基組成から得られるランダム配列の予測値から明瞭にずれる。転写因子に対して高い配列依存性を示し、安定に結合するシグナル配列は、ランダム配列からの予想値よりも低頻度に出現する傾向が見られた。

統計数理ならびに情報学的視点から、暗号文を含む文書類の出現頻度解析(Word Count)として、4)は特に興味深い。ATGCからなる長文(ゲノム配列)だけが与えられても、各生物が重要にしているシグナルを推定できる可能性が示唆されている。これからのゲノム科学は、ポストゲノムと呼ばれる時代を迎えつつある。塩基配列の解読が行われるが、通常の分子生物学や生化学の実験が殆ど行われないゲノムが急増している。従来は実験的な研究が行われてきた課題を、極力in silico実験(計算機を用いた解析)で代行することが重要になる。教師なしのアルゴリズムであるSOMは、正にこの目的に合致している。ゲノムに存在する機能上重要なシグナル類は、通常は3連や4連塩基よりは長い場合が多い。広範囲のゲノムについて、5-8連塩基へとSOM解析を進めれば、シグナルの候補配列のin silico探索が可能と考えられる。

 Fig1

図1(A) 真核生物13種の10 kbならびに100 kb配列について、 3連および4連塩基の出現頻度について、SOMを行った際の生物種ごとの分布図。色付きの格子点は1つの生物種だけからなるものであり、生物種と色との対応は図中に示した。複数の生物種の配列を含む格子点は、黒色で示した。主成分分析で求めた初期ベクトルを持つ格子点への、配列の帰属の結果をPCAとして示した。格子点の色付けの方法は、学習後のSOMと同様に行っており、単一の生物種の配列のみが帰属した格子点の数は極端に少なく、殆どが黒色の領域である。 (B) 100 kb の4連塩基のSOM解析した際の、連続塩基ごとの頻度分布の例。ゲノムサイズの大きな生物種の領域は、大文字のアルファベットで示した。連続塩基ごとの頻度分布図においては、使用頻度の高い順にから赤・白・青と表示している。詳しくは、原著論文(Abe et al. 2003)を参照下さい。