CmhaDSO E-value

概要

長さが\( m, n \)のランダムな2つの配列のアライメントスコアxがS以上となるアライメント数の期待値(E-value)は \[ E (x \ge S') = Kmne^{- \lambda S} \] と近似されることから、スコアの最大値が\( S \)以上になる確率は \[ p = 1-e^{-E} \] と求められる。 \( \lambda \)と\( K \)はスコア行列と配列中のアミノ酸出現頻度によって定まる係数であり、\( E \)値は値が小さいほど統計的に有意に類似していることを示す。

今、\( S' = \frac{(\lambda S - \ln K)}{\ln 2} \)とすると、 \[ E = mn2^{-S'} \] となる。 \( S' \)はビット単位の情報量に相当し、ビットスコアという。 これは元の類似性スコアを置換スコア行列に依存する\( \lambda \)と\( K \)を用いて正規化したものである。

参考・関連情報