ゲノムアセンブリ
ゲノム配列の解読法
生物ゲノムは染色体一式から構成される。 多くの真核生物はdiploid状態で存在するが、生物ゲノムはhaploid状態で表現される傾向にある。 現行の塩基配列解析技術では一つの染色体全体を配列決定することが不可能であるため、ゲノム配列を解読するためには、ゲノムを断片化したものを配列決定後にアセンブルすることで染色体配列の再構成を試みる。 これをショットガン法といい、Whole Genome Assembly(WGA)方式とHierarchical(又はclone-based) assembly方式に分類される。
WGA方式は以下の手順に従う。
- ゲノムDNAを超音波処理により断片化する。
- アガロースゲル電気泳動を利用して数kb程のDNA断片を回収する。
- ベクターに導入後、配列解読する。
Hierarchical assebly方式は以下の手順に従う。
- ゲノムDNAを制限酵素処理により断片化する。
- パルスフィールド電気泳動を利用して40-200kb程のDNA断片を回収する。
- BAC(又は fosmid)クローン作成後、物理地図を作る。
- minimal tiling pathをなすクローンを選択後、そのゲノムDNAを回収し、上記方式に従い配列解読する。
WGA方式が今日の主流であるが、Hierarchical assembly方式は物理地図の作成やBACクローン選択に労力を要するがWGA方式よりも解読精度が高い。
アセンブリの構築
生物の複雑さのゆえに、アセンブルアルゴリズムからは単一の完全な染色体配列が得られない場合が多く、その成果物として生成されたcontigsやscaffoldsに対して外部情報をもとに順序や方向が決定される必要がある。
配列はアセンブリ構築段階に対応してcomponent、contig、scaffold、染色体に分類される。 componentは最小の配列単位であり、これを整列し、非冗長経路として表される連続配列をcontigという。 各contigの順序と方向を定めることでscaffoldが構築される。 - tiling path files (TPFs) - AGPファイルは配列構築の指示内容を記述したもので各componentsに対して順序、方向、switch pointを指定する。 - join: contig中で隣接するcomponent間の配列の重なり
ゲノムアセンブリは染色体との対応付け状態により分類される。 特定の染色体上において順序と方向が明確なものは"placed"と称され、染色体位置を指定することができる。 どの染色体に対応付けされるかは明らかだが、順序又は方向が不明なものは"unlocalized"と称される。 どの染色体に対応付けされるかも不明なものは"unplaced"と称される。 アセンブリはplaced (すなわち染色体)、unlocalized、 unplaced配列及び染色体配列に対するalternate locus配列の集合を表し、主要アセンブリと称する場合にはalternate locusを除外した前三者の集合においてhaploidゲノムを非冗長に表現したものであることを要する。
ゲノムアセンブリの更新
アセンブリはINSDCに提出されると一意的なアクセス番号が付与される。 アセンブリに何らかの更新がなされた場合はアクセス番号は変わらず、版番号が加算される。 すなわちアセンブリは「アクセス番号.版番号」の形式で一意的に特定可能である。 アセンブリ更新を追跡する用途でINSDCを利用するのは不便であるため、NCBIでは専用のアクセス手段が準備されている。 すなわちGenBankではGCA_nnnnnnnnn、RefSeqではGCF_nnnnnnnnnのアクセス番号が与えられている。
アセンブリ更新は現行アセンブリに対する座標系変更の有無の相違によりそれぞれmajor releaseとpatch releaseに分類される。 patchesとはアクセス番号が付与されたscaffold配列であり、現行アセンブリに対するアライメント情報と共に定義される。 patchesはFIX patchesとNOVEL patchesに分類される。 前者は現行アセンブリに対する変更事項、後者はalternate lociの付加を表す。 累積されたpatch releasesは次のmajor releaseの際に前者はアセンブリに統合され、後者はalternate lociとして表示される。
ヒト・マウスの参照ゲノムアセンブリの名称
ヒトやマウスの参照ゲノムアセンブリはGenome Reference Consortium (GRC)において更新・公開がなされている。 現行のヒト参照ゲノムアセンブリの初版は2013年に発表され、正式名称をGenome Reference Consortium Human Build 38といい、GRCh38と略称する。 GRCh38の9番目のpatch releaseはGRC38.p9と略称する。 GRCh38はGenBankやRefSeqではそれぞれGCA_000001405.15とGCF_000001405.26に対応し、GRCh38.p9はGCA_000001405.24とGCF_000001405.35に対応する。 現行のマウス参照ゲノムアセンブリの初版は2020年に発表され、GRCm39と略称する。 GRCm39はGenBankやRefSeqではそれぞれGCA_000001635.9とGCF_000001635.27に対応する。 Ensembl/GENCODE、NCBI、UCSCでは同一のヒト・マウスの参照ゲノムアセンブリを参照し、ゲノム注釈情報を提供している*1。
*1 UCSCでは同一のゲノムアセンブリを参照しつつもGRCh38をhg38、GRCm39をmm39と別名で呼称している。
参考文献
ゲノムの特徴
アセンブリモデル
ゲノム解読プロジェクトでは当初、ゲノムアセンブリは単一の"A Golden Path" (AGP)により表現可能であり、変異のほとんどがSNPの形態であるから、多型はその注釈として表現されうるものと想定されていた。 その後、CNVsなどの大規模な構造変異が当初の想定よりも多く存在することが示され、このモデルがゲノムの一部領域では適合しないことが判明した。 ゲノムが複雑なアレルの多様性を示す領域を有する場合、その領域を完全に表現するためには複数の配列パスを生成する必要があるものと考えられる。
ゲノムサイズ
生物の複雑さとゲノムサイズは概ね正比例するが、生物進化の過程で生じるゲノムの反復配列、遺伝子重複、染色体の倍数化によって例外が生じる。
- 反復配列
- 反復配列は以下のように分類される。
- 縦列型 - 約5-30bpの反復単位で最大で20kbpほど反復したものをミニサテライト(又はvariable number of tandem repeats, VNTR)といい、テロメアリピート"TTAGGG"などがその代表例である。 1-4bpの反復単位で10-20回ほど反復したものはマイクロサテライト(又はshort tandem repeat, STRやsimple sequence repeat, SSR)という。
- 散在型 - トランスポゾン由来の配列であり、DNA配列が直接転位するDNA型(トランスポゾン)と逆転写を経て転位するRNA型(レトロトランスポゾン)がある。 DNA型はトランスポゼース配列とその両端のInverted Tandem Repeat(ITR)配列からなり、トランスポゼースがITRを認識して自身をDNAから切断してゲノム上の他の位置に転位する。 RNA型トランスポゾンはLTR型と非LTR型に分類される。 LTR型はインテグラーゼ及び逆転写酵素配列とその両端のLong Terminal Repeat(LTR)配列からなり、転写及び逆転写酵素によるDNA合成後にインテグラーゼの働きを介してゲノムDNAに導入される。 非LTR型には100-1000bpほどの長鎖散在反復配列(LINE)と80-400bpほどの短鎖散在反復配列(SINE)があり、いずれもtRNA様の配列を利用して転位する。 LINEはエンドヌクレアーゼと逆転写酵素配列をもちこれらを用いて転位するが、SINEは自身の酵素をもたずLINEとともに転位する。
- 遺伝子重複
- 異なる染色体上の類似配列間の誤った染色体組換えやレトロトランスポゾンによる遺伝子転移が原因で生じる。 遺伝子重複の結果、ゲノム上に遺伝子クラスターを形成する場合があり、ホメオティック遺伝子やグロビン遺伝子がその代表例である。
- 染色体の倍数化
- 同一種又は近縁種間で一方の種に対して整数倍の染色体数を有する現象を倍数性という。 その原因は減数分裂時の染色体分離不全にあるものとされる。 倍数性を示す個体を倍数体といい、植物や魚類に多い。
ヒトゲノムの構成
ヒトは22対の常染色体とX、Yの性染色体(男性はXY、女性はXX)をもち、ゲノムの塩基配列長は約3x109bpである。 反復配列がゲノム全体の50%ほどを占め、タンパクコード領域は1%ほどに過ぎない。 GC含量の平均は約40%ほどであるが、CpGアイランドと称するCG含量が50%以上で塩基数が200bp以上の領域には約70%の遺伝子プロモータ領域が存在する。 CpGアイランドはメチル化修飾を受けることで遺伝子発現調節に関与している。
塩基配列情報
塩基配列情報は人類共有の財産であるという考えのもとに、論文発表の際にはINSDCへの登録が義務付けられている。 INSDCはGenBank (NCBI, US)、ENA (EBI, Europe)、DDBJ (NIG, Japan)の三局からなり、いずれかの部局に情報登録がなされると他局にも反映される体制にある。 塩基配列情報は注釈が付与されたGenBank形式などで登録され、自由に利用できる。
NCBI | EMBL-EBI | DDBJ | |
Next Generation Reads | Sequence Read Archive (SRA) | European Nucleotide Archive (ENA) | Sequence Read Archive (SRA) |
Assembled Sequences | GenBank | DDBJ | |
Samples | BioSample | BioSample | |
Studies | BioProject | BioProject |
NCBI | EMBL-EBI | DDBJ | |
BioProject | PRJN | PRJE | PRJD |
BioSample | SAMN | SAME | SAMD |
study (SRA) | SRP | ERP | DRP |
sample (SRA) | SRS | ERS | DRS |
experiment (SRA) | SRX | ERX | DRX |
run (SRA) | SRR | ERR | DRR |
analysis (SRA) | SRZ | ERZ | DRZ |
SRAのexperimentを介して各種データベースとリンクしている。
個人情報保護の観点から公開できない塩基配列情報はdbGap(NCBI)|EGA(EBI)|JGA(DDBJ)データベースに登録されており、そのメタデータについては相互に交換されている。
NCBI Gene Expresion Omnibus (GEO) EBI ArrayExpress DDBJ Omics Archive (DOR)
Genotype-Tissue Expression (GTEx)はヒトの組織特異的遺伝子発現とその制御を解明することを企図とした事業である。 主にWGS、WES、 RNA-Seq解析が実施され、現行の Release V8では1000人ほどのドナーから得られた合計54種にわたるnon-diseased組織試料が解析されている。 成果データは以下の通りであり、OPEN ACCESSデータは GTEx Portal websiteから入手できる。
タンパク発現情報
ProteomeXchangeは質量分析によるプロテオームデータの共有を目的としたコンソーシアムであり、構成部局のいずれかに登録された情報は他局に反映される体制を敷いている。 以下の4つの部局から構成されている。
- PRoteomics IDEntifications Database (PRIDE)
- PeptideAtlas SRM Experiment Library (PASSEL)
- Mass spectrometry Interactive Virtual Environment (MassIVE)
- Japan ProteOme STandard Repository/Database (jPOST)
HumanProteinAtlasでは抗体を使用して測定した発現データを提供している。
遺伝子と転写産物
概要
ゲノム注釈の文脈において、遺伝子は関連したRNA転写物(アイソフォーム)の集合概念を表す。 転写物はDNA鋳型より産生されたRNA分子であり、各転写物は単一遺伝子にのみ関連付けられる。 データベース上では各遺伝子や各転写物は固有のアクセスIDを有する。
RefSeq
NCBI所管のRefSeqはDNA、RNA、タンパク配列情報のデータベースである。 多様な生物各種に対して重複のない完全な配列レコード一式を提供することを企図している。 配列レコードは手動及び自動処理による注釈情報を含み、GenBankと同様の形式で表現される。 データは RefSeq FTPサイトなどから自由に入手可能である。
接頭辞 | 分子についての説明 |
AC_ | 完全なゲノム分子 (通常はalternateアセンブリ) |
NC_ | 完全なゲノム分子 (通常は参照アセンブリ) |
NM_ | タンパクをコードする転写物 |
NR_ | タンパクをコードしない転写物 |
XM_ | タンパクをコードする転写物 (自動処理から予想されたもの) |
XR_ | タンパクをコードしない転写物 (自動処理から予想されたもの) |
NP_ | NM_又はNC_アクセス番号に関連するタンパク |
Ensembl/GENCODE
Ensembl
GENCODE
Encyclopedia of genes and gene variants (GENCODE)は全てのタンパクをコードする遺伝子の同定を目的とし、ENCODEのサブプロジェクトとして発足したものである。
GENCODEのリリース番号はEnsemblのリリース番号と関連付けられている。
Ensemblにおけるアノテーション
自動genebuild - Ensembl
手動 - Havana
Ensembl vs GENCODE
公式にEnsemblとGENCODEの遺伝子モデルは同一であるとされている.
染色体名はGENCODEではUCSCの命名慣習に従い、"Chr1", ..., "ChrM"と表記のに対して、 Ensemblでは"1", ..., "M"と表記する.
PAR遺伝子の情報がGENCODEでは重複記載しているのに対して、Ensemblでは単一である.
関連付けられている外部データベースへのリンクが異なる.
Ensembl/GENCODE vs RefSeq
RefSeqの基準は厳格である. ヒト遺伝学や変異体の研究において頻用される. Ensembl/GENCODEは転写物の網羅性に富む. ハイスループット解析において頻用される.
biotype
遺伝子・転写産物はbiotypesごとに分類される.- Proteinc coding
- Pseudogene
- Long noncoding
- Short noncoding
Ensembl/GENCODEにおける遺伝子・転写産物のaccession ID
suffix + 固定長
- ENSG - human_gene
- ENST - human_transcript
- ENSMUSG - mouse_gene
- ENSMUST - mouse_transcript
Ensembl/Havana, Ensembl, Havanaの相違
EnsembleとHavanaの両者においてアノテーションが一致しているものはEnsembl/Havanaと表す. 片方でのみ存在するアノテーションはEnsemblやHavanaと表す.Knownとnovelの相違
UniProtKB/Swiss-ProtまたはRefSeqでも対応する転写産物が見つかる場合はKnown、そうでない場合はnovelと分類される.主要アイソフォーム
MANE
ヒトの各タンパクコード遺伝子に対する代表的な転写産物のセットを提供しており、RefSeqとEnsembl/GENCODEの間で臨床的重要性や転写産物構造が一致している.APPRIS
様々な生物種において、各タンパクコード遺伝子に対する代表的な転写産物を選択して提供している. タンパク構造、機能特徴、種間保存を考慮して選定されている.CCDS
コード領域がRefSeqとEnsembl/GENCODEの間で一致している.遺伝子名
HUGO Gene Nomenclature Committee (HGNC).
タンパク配列と機能
タンパクの一次構造情報はUniProtKB、UniRef、UniParcを統合したUniProtデータベースから取得できる。
- UniProt Knowledgebase (UniProtKB) - 広範なデータアクセスの起点を提供する。 Swiss-ProtとTrEMBLから構成され、前者は手動注釈によるものでUniProtKB/Swiss-Protと称し、後者は自動注釈によるものでUniProtKB/TrEMBLと称する。
- UniProt Reference Clusters (UniRef) - 相互に類似した配列を単一レコードにまとめることで類似配列の検索を高速化することを目的としたデータベースである。
- UniProt Archive (UniParc) - 全てのタンパク配列を格納するデータベースである。
データの入手: Uniprot FTP
# 注釈ファイル curl -LO https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/uniprot_sprot.dat.gz # Xrefデータベース情報 curl -LO https://ftp.uniprot.org/pub/databases/uniprot/current_release/knowledgebase/complete/docs/dbxref.txt
注釈ファイルの構成は ここを参照せよ。
Gene Ontology
Gene Ontology (GO)の情報はGO Consortiumから入手することができる。 各ontologyの名称・定義等の情報は OBOファイル形式で提供されている。 各生物種ごとのGO注釈情報は GO Annotation File (GAF)ファイル形式で提供されている。参考文献
- The NCBI Handbook - Chapter 18 The Reference Sequence (RefSeq) Database
- UCSC FAQ: Gene Tracks
- A joint NCBI and EMBL-EBI transcript set for clinical genomics and research
- Matched Annotation from NCBI and EMBL-EBI (MANE)
- MANE Collaboration
- APPRIS: selecting functionally important isoforms
- HAVANA Annotation Guidelines
発現制御領域
ENCODE
The Encyclopedia of DNA Elements(ENCODE)はゲノム上の全ての機能要素の解明を目的とし、2003年にヒトゲノムプロジェクトの後継プロジェクトとして発足した.
FANTOM
情報収集例
ヒト
下記は調査時(2023/12/28)の情報に基づく。
Ensembl FTPからゲノム配列と注釈情報を取得する。
マウス
下記は調査時(2023/12/28)の情報に基づく。
Ensembl FTPからゲノム配列と注釈情報を取得する。
ハダカデバネズミ
NCBIからゲノム配列と注釈情報を取得する
下記は調査時(2023/12/26)の情報に基づく。
NCBIのサイトの検索窓にハダカデバネズミ(Taxonomy ID: 10181)の学名heterocephalus glaberを入力するとNCBIの各データベース上でのエントリ数とリンクを表示する。 Genomeの項目に遷移すると、HetGla_female_1.0 (RefSeq: GCF_000247695.1)が参照ゲノム配列であることが分かる。 次にHetGla_female_1.0の項目に遷移した後、さらに"See full annotation report"のリンク先に遷移すると、このアセンブリに対するアノテーションの統計情報(Annotation Release 102)とともに、その情報源であるゲノム配列やアノテーション情報ファイルを格納したFTPサーバーへのリンク先が示されている。
Ensemblからゲノム配列と注釈情報を取得する
下記は調査時(2023/12/26)の情報に基づく。 Ensemble release 110。
EnsemblのミラーサイトのホームページのAll genomesの生物種の選択一覧からNaked mole-rat femaleを選択する。 遷移先は四部(Genome assembly/Gene annotation/Comparative genomics/Variation)から構成されている。 Genome assemblyからGCA_944319715.1が参照ゲノムアセンブリであることが分かる。 Genome annotationの Download FASTAや Download GTF or GFF3からFTPサーバーに遷移し、 ゲノム配列やアノテーション情報を取得することができる。