BLSOMviewer

Bioinformatics Laboratory
English version

ゲノム配列データを対象にした連続塩基組成に基づく一括学習型自己組織化マップ(BLSOM)解析

我々は,ゲノムに潜む生物種固有の特徴を解明する目的で,大量かつ多次元データの2次元や3次元でのクラスタリングと可視化法として,コホネン博士らが開発した,教師なし学習アルゴリズム「自己組織化マップ(Self-Organizing Map, SOM)」に着目し,コホネンSOMの長所を生かしながら,再現性のある分類結果を得るアルゴリズムとして「一括学習型自己組織化マップ(Batch-Learning Self-Organizing Map, BLSOM)」を開発し,ゲノム配列解析に適用しています.
3連や4連塩基といった連続塩基(オリゴヌクレオチド)の出現頻度に着目することで,生物種の情報を計算の途中で一切与えずに,連続塩基の出現頻度の類似性だけを基に,ゲノム配列断片を生物種ごとに高精度に分離(自己組織化)させる強力なクラスタリング能力を持ち,その結果を容易に可視化できます.BLSOM法の詳細なアルゴリズムについては,著者らの他の解説書や原著論文,もしくは,本サイトの解説をご参照下さい.
本ページでは,ゲノム配列データから,ゲノム配列を断片化し,その配列断片の連続塩基組成の度数(もしくは,頻度)を計算し,BLSOM解析をLinux上で行うプログラム一式と,そのBLSOM解析結果を容易に閲覧可能なBLSOM Viewer(Windows or Linuxで利用可能)のダウンロードサイトとなります.
BLSOM解析プログラムは,Linux版のみの提供となりますが,より多くのゲノムを対象とした解析が可能となります.

ソフトウェアのダウンロード

  • プログラム(BLSOMviewer.tar.gz) をクリック下さい.
    Version : 1.0β
    使い方につきましては,添付のREADMEをご確認ください.

ダウンロードしたファイルの説明

「BLSOMviewer.tar.gz」を解凍後のディレクトリとファイルを説明しています.

  1. README.pdf : 本プログラム・ソフトウェアのマニュアル
  2. frq ディレクトリ:ゲノム配列データを断片化し,度数・頻度計算を行うプログラム一式
    • 詳しくは,READMEの「4.1 連続塩基度数・頻度計算」をご確認ください.
  3. BLSOM ディレクトリ:BLSOM解析用プログラム一式
    • 詳しくは,READMEの「4.2 BLSOMによる解析」をご確認ください.
  4. BLSOMviewer_v1_beta.jar: BLSOM Viewerプログラム
    • 詳しくは,READMEの5章以降をご確認ください.

動作環境

  • 度数・頻度計算を行うプログラム一式,BLSOM解析用プログラム一式
    • 64-bit Linux system (Kernel ≧2.6) の環境下で,GNU C/C++ complier (≧4.4.7),ruby (≧1.8.7) が必須となります.
  • BLSOM ViewerはJavaで開発したソフトウェアのため,Java環境のインストールが必須となります.

参考文献

  1. Kanaya S, Kinouchi M, Abe T, Kudo Y, Yamada Y, Nishi T, Mori H, Ikemura T (2001) Analysis of codon usage diversity of bacterial genes with a self-organizing map: characterization of horizontally transferred genes with emphasis on E. coli O157 genome. Gene, 276:89-99.
  2. Abe T, Kanaya S, Kinouchi M, Ichiba Y, Kozuki T, Ikemura T (2003) Informatics for unveiling hidden genome signatures. Genome Research, 13:693-702.
  3. Abe T, Sugawara H, Kinouchi M, Kanaya S, Ikemura T (2005) Novel Phylogenetic Studies of Genomic Sequence Fragments Derived from Uncultured Microbe Mixtures in Environmental and Clinical Samples. DNA research, 12:281-290.
  4. Abe T, Sugawara H, Kanaya S, Ikemura T (2006) Sequences from almost all prokaryotic, eukaryotic, and viral genomes available could be classified according to genomes on a large-scale Self-Organizing Map constructed with the Earth Simulator. Journal of the earth simulator, 6:17-23.
  5. Abe T, Kanaya S, Uehara H, Ikemura T (2009) A novel bioinformatics strategy for function prediction of poorly-characterized protein genes obtained from metagenome analyses. DNA Research, 16:287-298.
  6. (Review) Iwasaki Y, Abe K, Wada K, Wada Y, and Ikemura T. (2013) A Novel Bioinformatics Strategy to Analyze Microbial Big Sequence Data for Efficient Knowledge Discovery: Batch-Learning Self-Organizing Map (BLSOM). Microorganisms, 1:137-157.
Counter: 435, today: 1, yesterday: 0