コドン組成について の履歴ソース(No.1)

[[Ikemura Laboratory]]

2・1コドン
遺伝子発現の翻訳過程において、mRNAの3塩基を単位とした配列情報(コドン)が一つのアミノ酸に対応付けられることにより蛋白質が合成される。コドンは3塩基からなるため64(=43)種類存在する。これら64種類(終止コドンを含む)のコドンは20種のアミノ酸に対応している。従ってコドンとアミノ酸は、多対一の関係になる。すなわち、一つのアミノ酸に対して複数のコドンが対応する。このような同一のアミノ酸と対応するコドンを本研究では同義語コドンと呼ぶ。同義語コドンの選択は、合成される蛋白質の構造に影響を及ぼさないにもかかわらず、種固有のコドン使用の偏りが原核生物および真核生物の両方に存在することが知られている。
本研究室では、ゲノム大量情報処理技術の開発の一環として、線形写像法の主成分分析を用いて、単細胞生物種(バクテリアおよび酵母)の種固有のコドン使用の不均一性(コドン使用多様性)をモデル化すること、および、種固有のコドン使用の偏りを利用した遺伝子の発現量の推定法の開発を行ってきた[23-30]。
生物の所有するtRNAの多様性が、生物種固有のコドン使用多様性を生み出す一因となっており[30]、翻訳の過程で生物固有の各々のtRNAの細胞内での量が翻訳効率および翻訳精度と関係することが大腸菌、酵母、枯草菌で実験により示されている[30,37-38]。池村は生物が所有するtRNA種から翻訳効率と関連した最適コドンが決まることを示しこれを規則に表現した。この規則をもとに現在までに妥当性が得られている最適コドン決定規則を表2・1に示す。
近年のゲノム配列解析技術の進展に伴って、ゲノム全体の遺伝子のコドン使用を対象とした解析が可能となった。ゲノムの全塩基配列が既知になると生物ごとのゲノムに存在するtRNA数を推定することが可能となる。アンチコドンごとの細胞内のtRNA量とゲノム上のtRNAコピー数との間に相関があることが大腸菌[37]、枯草菌[30]、および酵母[38]で報告されていることから、生物ごとのゲノムに有するtRNA数から最適なコドンを推定でき、このことを利用して、多変量解析により推定される種内での遺伝子間のコドン使用の不均一性(生物種固有のコドン使用多様性)に与える因子とtRNAに基づいた翻訳効率との関連性を検討することが可能となった。
 
表2・1 翻訳過程による最適コドン決定規則
________________________________________
規則1: 	コドン使用は細胞内のtRNA量による制約を受ける。最適コドンは、細胞内に多量に含まれるtRNAのアンチコドンと対応する。
規則2: 	アンチコドンの第1番目塩基のウリジンが化学修飾を受けメチルチオウリジン誘導体となった場合には、コドン第3番目の位置ではGよりもAを好む。
規則3:	アンチコドンの第1番目塩基が化学修飾を受けイノシンとなった場合には、コドン第3番目の位置ではAよりもUあるいはCを好む。
規則4: 	(A/U)-(A/U)-ピリミジン型の二つのコドンからなるアミノ酸においては、  コドン第3番目の位置ではUよりもCにおいてコドン-アンチコドン間の相互作用が最適である。
規則5: 	二種のアミノ酸(ヒスチジンとアスパラギン酸)のコドンは、それぞれ一種のアンチコドン(GUGおよびGUC)を有するtRNAで対合し、アンチコドン第1位置とコドン第3位置の相互作用においてワトソン-クリック型塩基対合が最適な相互作用となる。
________________________________________

2・2コドン使用の表現方法
生物種固有のコドン使用特性を解析するために、各々の遺伝子をコドン使用数の相対値からなるベクトルで表現し、多変量解析を行うことが多くの研究でなされている[28,30]。いま、第i番目の遺伝子における第m番目のアミノ酸に対するj番目のコドンの使用度数をfij(m)とする。生物種固有のコドン使用特性の先駆的仕事はグランサムら[39]により行われた。彼らは、コドンの使用度数から式(2・1)により得られる相対値 xij(m) をもとに、各々の遺伝子のコドン使用特性をベクトルで表現した。
	            	                              (2・1)
この相対値 xij(m)は単純であり、遺伝子の長さに対する影響を除去することができることから、比較的多くの研究で採用されている。ただし、全てのコドン数に対する相対値となっているために、アミノ酸組成が相対値 xij(m) に影響を及ぼすことになる。アミノ酸組成の影響を除去した相対値表現法には、以下の式(2・2)および式(2・3)がある。
	                                                (2・2)
                                       (2・3)
式(2・2)では、各々のアミノ酸に対するコドンについて規格化されている。さらに、式(2・3)では、アミノ酸ごとのコドン種数M(m) による補正がなされている。論文[40]および[41]では、それぞれ、式(2)および式(3)によるコドン解析が行われている。
本研究では生物ごとに遺伝子間の不均一なコドン使用に与える最大要因を推定することが目的であり、そのためにアミノ酸組成の影響を取り除く必要がある。そこで、前処理法としては式(2・2)あるいは式(2・3)が候補となる。主成分分析では、分散が大きい変量の影響を受けやすい。式(2・2)と式(2・3)を比べた場合、コドン種数による分散の相違が主成分分析に大きく影響する。コドン出現数がランダムである場合に式(2・2)と式(2・3)においてコドン種数による分散がどの程度異なるかについて乱数を用いて検討した。コドン種数をM(m)(=1,2,3,4および6)とする。M(m)個の乱数を発生させ式(2・2)あるいは式(2・3)で相対値表現をする。ここで、乱数はC言語標準関数のrand( )を用い、区間0-214783647の乱数を発生させた。この過程を10000回繰り返し、平均と分散を求めた。このときの式(2・2)および式(2・3)の相対値におけるコドン種数ごとの平均値と分散を表2・2に示す。この表より式(2)の相対値表現においてはコドン種数による相対分散の変化が式(2・3)の相対値表現の相対分散に比べて大きいことがわかる。後述する主成分分析では分散の大きい変量ほど主成分第1軸への寄与が大きくなる。すなわち、コドン種数の小さいアミノ酸の各々のコドンが、見かけ上、最大分散に多大に影響を及ぼすこととなる。本研究において遺伝子の分類を試みるときは、前処理として主成分解析を用いているため、このような制約を避ける目的から式(2・3)による相対値表現を採用した。


表2・2 コドン種数と分散の関係
----
,コドン種数,1,2,3,4,6
式(2)の場合,平均,1.000,0.500,0.333,0.250,0.167
,相対分散a,0.000,1,000,0.571,0.357,0.169
式(3)の場合,平均,1.000,1.000,1.000,1.000,1.000
,相対分散a,0.000,1.000,0.857,0.714,0.482
----
aコドン種数2のときの分散を1としたときの相対分散値(コドン種数2における分散値は式(2・2)において0.056、式(2・3)において0.112であった。)