アミノ酸配列解析 の履歴(No.1)


研究内容紹介

2-4連アミノ酸のSOM解析によるタンパク質の機能推定

約10年前に、タンパク質の2連アミノ酸頻度をSOM解析した欧米のグループの研究により、高次構造や機能による分離が起きることが報告されている。タンパク質の機能推定に有用と考えられるが、ゲノム配列解読前の研究であり、機能未知のタンパク質がほとんど知られていなかったことや、長時間の計算が必要なこともあり、それ以降はタンパク質の配列解析には殆ど用いられずにきた。本申請の研究では、入力データ順に依存しない改良型のSOMを用いて、タンパク質の機能推定法としての可能性を検証する。具体的には、公的データベースに登録されている既知の全タンパク質のアミノ酸配列について、2~4連アミノ酸頻度を対象にした大規模SOMを作成し、タンパク質の構造や機能による分離の度合いを評価し、タンパク質の機能推定としての技術開発を行なう。予備的な解析として、SwissProtデータベースに登録されているタンパク質を対象に、5万個のタンパク質を選び、2連アミノ酸頻度についてのSOMを行なったところ、機能を反映した分離以外に、生物種や生物系統による分離も混在することが見出された。生物種による分離の主原因が、生物種に特徴的なアミノ酸の使用頻度であることも判明している。20種類のアミノ酸について、化学的な類似度を基礎に、11種類にグループ分けする等の工夫で、生物種による差の影響が軽減している。本申請の研究では、2アミノ酸からなる400次元の頻度データや3アミノ酸の8000次元のデータを出発点に解析を進めるが、並行して、3アミノ酸以上については1000次元程度からなる有効次元を選択する方法をも試みる。具体的には、公的データベースに収録された機能既知の全タンパク質のアミノ酸配列と、ゲノム解読で得られた機能未知なタンパク質遺伝子候補の全アミノ酸配列とを混合して、各配列での連続アミノ酸頻度を算出し、大規模SOMを作成する。SOM上で、機能が既知の配列と同一の位置に、あるいは近接して分類されことを指標に、機能未知分子の機能推定を行なう。配列相同性検索では有意な相同性が見出されていない機能未知タンパク質(例えば環境微生物から見出された新規タンパク質)が、どのような機能既知のタンパク質とSOM上で関連付けられるかを知る技術は、分子進化学の新規で強力な解析手法となると考えられる。多機能な大型タンパク質を考慮して、200アミノ酸程度の断片化windowを設けて、10アミノ酸程度のstepで移動させた断片配列セットのSOM解析も計画している。機能推定の精度が上がると考えている。全アミノ酸配列を対象にした大規模SOM解析の場合、高機能なスーパコンピュータによる計算が必須となる。申請者らは、世界で最高機能水準である地球シュミレータを用いるための、高いベクトル化率とパラレル化率の要件を満たすプログラムを開発してきており、使用許可を得て、既に予備的な研究に使用している。研究の準備は充分に整っている。

配列相同性検索との比較から得られる遺伝子構造の分子進化学的解析

上述のタンパク質の機能推定は、タンパク質を構成する部品に着目した方法であり、モチーフサーチと似た原理に基づいている。指摘すべき点は、機能モチーフ以外にも、タンパク質の高次構造形成に必要な要素部品の配列類の構成をも加味している。タンパク質の機能発現に重要な機能部位については、3次元上での部位間での相互配置が重要であり、1次元配列の相同性検索では有意な相同性を見付けられない可能性がある。その意味でも、要素部品(オリゴペプチド)の出現頻度の類似度を基礎にして、機能未知のタンパク質と機能既知のタンパク質とを関連付ける方法論の開発は興味深い。勿論、この技術を確立するには、克服すべき課題も多い。しかしながら、相同性検索のみでは、ゲノム解読から得られる遺伝子候補群について、半数にも及ぶ例でタンパク機能が未知残されている現状を考えると、配列相同性検索に依存しない方法論の導入の意義は大きい。本申請の研究の目的は、配列相同性検索法を補完する新技術の確立にある。機能が未知に残されてきたタンパク質類について、機能が既知のタンパク質とSOM法で有意な関連付けが可能になった場合には、それらについての配列相同性検索を行い、構成部品に着目したSOM法と相同性検索で差異の生じた原因を知る。単純な配列相同性検索に、タンパク質の高次構造の類似度を加味したことで、系統や機能推定の信頼度が上昇したのと同様に、要素部品(2~4連アミノ酸)の構成の類似度を加味することで、系統や機能推定の信頼度の上昇や適応範囲の拡大が期待できる。個々の遺伝子の分子進化過程に有用な知見が得られる可能性も考えられる。