JASPARは非重複かつ手動整理されたposition frequency matrices (PFMs)のオープンアクセスデータベースである。 PFMsはposition weight matrices (PWMs)やposition-specific scoring matrices (PSSMs)を構築するための確率モデルに変換されることで、DNA配列上を走査し転写因子結合部位を予測することができる。 現在6つのtaxonグループ(Fungi、Insects、Nematodes、Plants、Urochordates (尾索動物)、Vertebrates)に対して、転写因子結合プロファイルを提供しており*1、 JASPAR| TRANSFAC| MEME形式でダウンロードできる*2。
JASPAR形式
>MA1104.2 GATA6 A [ 22320 20858 35360 5912 4535 2560 5044 76686 1507 1096 13149 18911 22172 ] C [ 16229 14161 13347 11831 62936 1439 1393 815 852 75930 3228 19054 17969 ] G [ 13432 11894 10394 7066 6459 580 615 819 456 712 1810 18153 11605 ] T [ 27463 32531 20343 54635 5514 74865 72392 1124 76629 1706 61257 23326 27698 ]
TRANSFAC形式
AC MA1104.2 XX ID GATA6 XX DE MA1104.2 GATA6 ; From JASPAR PO A C G T 01 22320.0 16229.0 13432.0 27463.0 02 20858.0 14161.0 11894.0 32531.0 03 35360.0 13347.0 10394.0 20343.0 04 5912.0 11831.0 7066.0 54635.0 05 4535.0 62936.0 6459.0 5514.0 06 2560.0 1439.0 580.0 74865.0 07 5044.0 1393.0 615.0 72392.0 08 76686.0 815.0 819.0 1124.0 09 1507.0 852.0 456.0 76629.0 10 1096.0 75930.0 712.0 1706.0 11 13149.0 3228.0 1810.0 61257.0 12 18911.0 19054.0 18153.0 23326.0 13 22172.0 17969.0 11605.0 27698.0 XX CC tax_group:vertebrates CC tf_family:GATA-type zinc fingers CC tf_class:Other C4 zinc finger-type factors CC pubmed_ids:9915795 CC uniprot_ids:Q92908 CC data_type:ChIP-seq XX //
MEME形式
MEME version 4 ALPHABET= ACGT strands: + - Background letter frequencies A 0.25 C 0.25 G 0.25 T 0.25 MOTIF MA1104.2 GATA6 letter-probability matrix: alength= 4 w= 13 nsites= 79444 E= 0 0.280953 0.204282 0.169075 0.345690 0.262550 0.178251 0.149716 0.409483 0.445093 0.168005 0.130834 0.256067 0.074417 0.148923 0.088943 0.687717 0.057084 0.792206 0.081303 0.069407 0.032224 0.018113 0.007301 0.942362 0.063491 0.017534 0.007741 0.911233 0.965284 0.010259 0.010309 0.014148 0.018969 0.010725 0.005740 0.964566 0.013796 0.955768 0.008962 0.021474 0.165513 0.040632 0.022783 0.771071 0.238042 0.239842 0.228501 0.293616 0.279090 0.226184 0.146078 0.348648 URL https://jaspar.elixir.no/matrix/MA1104.2
*1 websiteから利用する場合にはメタデータも提供される。この中には生物種を示す記載も含まれるが、これはプロファイル作成に用いた情報源を示すためであり、プロファイル適用をその生物種に限定するためのものではない。
*2 2024年現在における脊椎動物PFMs(non-redundant) single batch fileのリンク先である。
参考・関連情報