CmhaDSO アミノ酸置換スコア

概要

アミノ酸配列アライメントの配列類似度計算にはアミノ酸置換スコアを利用するのが一般的である。 これは相同配列間のアライメント中で観察されるアミノ酸置換頻度を基に定義され、主にPAM行列とBLOSUM行列が頻用される。

定義

アミノ酸\( a \)、 \( b \)における置換スコア行列を\( s \)とすると、その要素\(s(a, b)\)は次のように対数尤度比で定義される。 \[ log( \frac{ q_{ab} }{ p_{a}p_{b}} ) \] ここで、\( p_{a} \)、\( p_{b} \)はアミノ酸\( a \),\( b \)の出現確率で、\( p_{a}p_{b} \)はアミノ酸が独立に出現すると仮定した場合に\( a \)、\( b \)が同時に出現する確率である。 \( q_{ab} \)は相同配列アライメント中で\( a \)、\( b \)が揃って出現する確率である。

PAM行列

PAM行列は近縁タンパクの置換頻度から分子進化学的に求めたものである。 PAMとは100残基あたり1回の頻度でアミノ酸置換が生じる進化上の時間単位を表す。 1PAMで観察される置換をマルコフ過程の1段階とし、その遷移確率をn乗することでnPAMの進化時間における置換スコア行列(PAMnと表す)を算出する。 これにはPAM30、PAM120、PAM250などがあるが、nの値が大きいものほど遠縁配列比較に適している。

BLOSUM行列

BLOSUM行列は近縁・遠縁の相同配列のアライメントデータベースであるBLOCKSにおいて、アライメントを作成し、ブロック(ギャップ無しで保存された部分)で観察されたアミノ酸置換頻度に基づき定義されている。 近縁種の存在による偏りを除くために、各ブロックからm%以上一致している配列を1つのクラスターとしてまとめ、置換頻度が計算されている。 これをBLOSUMmと表記し、BLOSUM45、BLOSUM62、BLOSUM80が頻用されており、mの値が小さいものほど遠縁の配列比較に適している。