2023年12月13日发(作者:)

【施工中】常用数据库下载参考基因组及注释文件

参考:Jimmy老师博客:基因组各种版本对应关系

目前常用的人类参考基因组是GRCh37和GRCh38,在三大常用数据库对应关系如下:

NCBI

GRCh37

GRCh38

UCSC

hg19

hg38

ENSEMBL

release_59/61/64/68/69/75

release_76/77/78/.../99/100

ENSEMBL

1. 下载人类GRCh38参考基因组及注释文件

ENSEMBL主页

1.2 点击Download DNA sequence (FASTA),进入参考基因组文件的ftp下载地址:

ftp:///pub/release-100/fasta/homo_sapiens/dna/

GRCh38.p13页面

1.3 进入ftp下载页面后,选择按大小排序,下载参考基因组文件Homo_y_

参考基因组文件ftp下载页面

在这个页面的最下端有一个

README

文件,记录了有关上面所有文件的详细信息,有兴趣的同学可以自行查阅。

1.4 回到GRCh38.p13页面,点击Download GTF,进入参考基因组注释文件ftp下载地址:ftp:///pub/release-

100/gtf/homo_sapiens/

GRCh38.p13页面

1.5 进入ftp下载页面后,

下载Homo_

或者Homo_

参考基因组注释文件ftp下载页面

1.6 回到GRCh38.p13页面,点击Download FASTA ,进入ftp下载地址:

ftp:///pub/release-100/fasta/homo_sapiens/

GRCh38.p13页面

ftp下载

可以看到,有一系列文件夹,其中dna文件夹,就是步骤1.2演示的参考基因组文件所在的文件夹,而cdna文件夹,存放的则是参考转录组文件

1.7 进入cdna文件夹,下载Homo_

参考转录组文件ftp下载页面

至此,我们就下载了人类参考基因组GRCh38版本的

参考基因组文件 Homo_y_

参考基因组注释文件Homo_

或者Homo_

参考转录组文件Homo_

2. 下载人类GRCh37参考基因组及注释文件

ENSEMBL主页GRCh37

GRCh37页面

GRCh37页面

GRCh37.p13页面

可以看到,这个页面就跟前面GRCh38.p13下载页面非常的类似了,我们可以点击Download DNA sequence (FASTA)进入到GRCh37的参考

基因组文件Ftp下载地址:

ftp:///pub/grch37/current/fasta/homo_sapiens/dna/

我们可以点击Download genes, cDNAs, ncRNA, proteins (FASTA)进入到GRCh37版本各种Fasta格式文件ftp下载地址:

ftp:///pub/grch37/current/fasta/homo_sapiens/

可以下载到GRCh37版本的参考基因组文件和参考转录组文件

人类参考基因组GRCh37版本

参考基因组文件:

ftp:///pub/grch37/current/fasta/homo_sapiens/dna/Homo_y_

参考转录组文件:

ftp:///pub/grch37/current/fasta/homo_sapiens/cdna/Homo_

参考基因组注释文件:(页面上并没有下载地址,但是可以根据前面GRCh38下载网页规律构建,将ftp网址里的fasta更换为gtf)

ftp:///pub/grch37/current/gtf/homo_sapiens/Homo_

参考基因组注释文件ftp下载页面

NCBI

UCSC

GENCODE