2007年度 の履歴ソース(No.2)

[[Ikemura Laboratory]]

*2007年度卒業研究テーマ(実際の内容について) [#f0b56587]
**環境由来DNA配列解析 [#b348f626]
***DNA断片配列からの真核生物由来配列の探索と生物、ならびに遺伝子の多様性の解明(仮題)@濱野 [#ia224199]
とりあえず、どんなことをやるかのメモ的なものです。

DNA断片配列として、Venterらが配列決定したSargasso海由来のDNA断片配列(4,124,495配列)を対象として、これらの配列より、真核生物由来と推測される配列がどのぐらいあり、その多様性はどうなのかを明らかにする。
また、真核生物由来と推定されたDNA断片配列がどのような遺伝子を持っているか、また、真核生物特有の機能を持つ遺伝子(ヒストン遺伝子など)があるかを探索を行い、DNA断片で推定した結果との比較を行う。
これまで、原核生物を中心に系統推定を実施してきたため、真核生物については解析が遅れていた。それを今回の卒業研究の一環として、研究を行い、海水における真核生物の多様性の解明も実施したいと考えている。
また、出来れば、海水中に多いといわれているウィルスについても検討できれば、なお良いかな。
系統推定を行う手法として、我々の研究グループが開発してきた[[SOM>SOMとは]]による系統推定法を適応し、DNA塩基配列の塩基特徴より、推定を実施する。
現在のSOMによる系統推定法は、徐々に対象を絞込んで推定を実施しており、以下の順序で行っている。
----
-大分類(真核・原核・ウィルス・オルガネラ)
-中分類(原核・系統群)
-小分類(原核・属)
----
これを、
----
-大分類(真核・原核・ウィルス・オルガネラ)
-中分類(真核・系統群:脊椎・植物・昆虫など)
-小分類(原核・各種単位)
----
で絞込みを行って、推定を実施する。
現在は、大分類のデータがあるため、中分類のSOMマップを作成することから、始めることにし、まずはゲノム配列データのの取得から始める。
ゲノム配列データの取得サイトは、
-UCSC, Ensemble, WGS(酵母のみ)
とする。

SOM解析には、全ゲノムを使用するのではなく、ランダムサンプリングしたデータを使用する。そのわけとしては、計算量の問題と、マップ上での領域の問題があるため。

塩基の使用頻度として、縮退4連続塩基が良いのか、5連続と連続塩基数を上げてゆけばよいのかを検証する必要もあるかな。

***SOM法の改良@棚橋 [#k018d7f5]
これまで、我々が開発してきた一括学習型SOMを、「教師なし」学習型から、「教師あり」学習型への改良を検討する。
これまで、一括学習型SOMの良い点は、
 ゲノム配列に個有の特徴があるのか。
 その特徴は、種個有?ゲノムの機能個有?のどちらなのか。
を解明したいというのが、研究の始まりであった。
その点では、一括学習型SOMは非常に良い手法であると考えている。
この知見を基に、環境由来DNA配列に対する系統推定法へと適応を行ってきたが、