2007年度 の履歴(No.4)


Ikemura Laboratory

2007年度卒業研究テーマ(実際の内容について)

環境由来DNA配列解析

DNA断片配列からの真核生物由来配列の探索と生物、ならびに遺伝子の多様性の解明(仮題)@濱野

とりあえず、どんなことをやるかのメモ的なものです。

DNA断片配列として、Venterらが配列決定したSargasso海由来のDNA断片配列(4,124,495配列)を対象として、これらの配列より、真核生物由来と推測される配列がどのぐらいあり、その多様性はどうなのかを明らかにする。
また、真核生物由来と推定されたDNA断片配列がどのような遺伝子を持っているか、また、真核生物特有の機能を持つ遺伝子(ヒストン遺伝子など)があるかを探索を行い、DNA断片で推定した結果との比較を行う。
これまで、原核生物を中心に系統推定を実施してきたため、真核生物については解析が遅れていた。それを今回の卒業研究の一環として、研究を行い、海水における真核生物の多様性の解明も実施したいと考えている。
また、出来れば、海水中に多いといわれているウィルスについても検討できれば、なお良いかな。
系統推定を行う手法として、我々の研究グループが開発してきたSOMによる系統推定法を適応し、DNA塩基配列の塩基特徴より、推定を実施する。
現在のSOMによる系統推定法は、徐々に対象を絞込んで推定を実施しており、以下の順序で行っている。


  • 大分類(真核・原核・ウィルス・オルガネラ)
  • 中分類(原核・系統群)
  • 小分類(原核・属)

これを、


  • 大分類(真核・原核・ウィルス・オルガネラ)
  • 中分類(真核・系統群:脊椎・植物・昆虫など)
  • 小分類(原核・各種単位)

で絞込みを行って、推定を実施する。
現在は、大分類のデータがあるため、中分類のSOMマップを作成することから、始めることにし、まずはゲノム配列データのの取得から始める。
ゲノム配列データの取得サイトは、

  • UCSC, Ensemble, WGS(酵母のみ)
    とする。

SOM解析には、全ゲノムを使用するのではなく、ランダムサンプリングしたデータを使用する。そのわけとしては、ゲノム間の塩基配列長の違いがあるため、マップ上での領域の問題があるため。

塩基の使用頻度として、縮退4連続塩基が良いのか、5連続と連続塩基数を上げてゆけばよいのかを検証する必要もあるかな。

SOM法の改良@棚橋

これまで、我々が開発してきた一括学習型SOMを、「教師なし」学習型から、「教師あり」学習型への改良を検討する。
これまで、一括学習型SOMの良い点は、
 ゲノム配列に個有の特徴があるのか。
 その特徴は、種個有?ゲノムの機能個有?のどちらなのか。
を解明したいというのが、研究の始まりであった。
その点では、一括学習型SOMは非常に良い手法であると考えている。
この知見を基に、環境由来DNA配列に対する系統推定法へと適応を行ってきたが、この場合については、

  • 各クラスタごとの境界線もよりはっきりとさせたい
  • クラスタの分解能の精度をより上げたい
    としたほうが、より予測性能があがると考えている。
    そのため、実際に教師あり学習アルゴリズムを組み込み、実データを用いて、ゲノム解析における有効性を検証したい。
    学習アルゴリズムとしては、
  • LVQ (learning Vector Qutification) 法
  • counter provacation法
    などで行うことを検証する。
    分類精度が上がれば、予測性能も上がることを期待している。

できれば、配列の数値化の方法も考えてみることもできればなぁ。
たとえば、配列の位置と使用頻度をうまく数値化するとか。

tRNA配列のデータベース化について@小原

  • データベースのコンテンツとしては、
    「環境由来DNA配列」中から新規tRNAの探索を行い、DB化を行う。
    探索する配列としては、complete genome, WGS, environmental sampleとする。
  • 実際に行うことについて
    • tRNAのアラインメント(機能領域ごとの配置表)プログラムの作成(小原君:手鳴らしに。)
    • envについては、SOMによる系統分類を行い、系統・属種ごとに分けてまとめる。
    • complete genome, WGSについては、codon頻度と保有するtRNA数との関係をまとめる。
    • tRNA配列のアラインメント(アンチコドンごと、生物種ごと)
    • tRNA-SOMもできないか(SOMの短い配列に対する有用性を見るため)
    • tRNA clusterによる生物種の関係を見てみる。
    • envについては、統計データをだす。
      • tRNAが乗っている断片配列数
      • 断片配列長と予測されたtRNA遺伝子数との関係
    • tRNAプロモータ (5', 3'末端の±1kbも抜き出す)