2023年12月13日发(作者:)
【施工中】常用数据库下载参考基因组及注释文件
参考:Jimmy老师博客:基因组各种版本对应关系
目前常用的人类参考基因组是GRCh37和GRCh38,在三大常用数据库对应关系如下:
NCBI
GRCh37
GRCh38
UCSC
hg19
hg38
ENSEMBL
release_59/61/64/68/69/75
release_76/77/78/.../99/100
ENSEMBL
1. 下载人类GRCh38参考基因组及注释文件
ENSEMBL主页
1.2 点击Download DNA sequence (FASTA),进入参考基因组文件的ftp下载地址:
ftp:///pub/release-100/fasta/homo_sapiens/dna/
GRCh38.p13页面
1.3 进入ftp下载页面后,选择按大小排序,下载参考基因组文件Homo_y_
参考基因组文件ftp下载页面
在这个页面的最下端有一个
README
文件,记录了有关上面所有文件的详细信息,有兴趣的同学可以自行查阅。
1.4 回到GRCh38.p13页面,点击Download GTF,进入参考基因组注释文件ftp下载地址:ftp:///pub/release-
100/gtf/homo_sapiens/
GRCh38.p13页面
1.5 进入ftp下载页面后,
下载Homo_
或者Homo_
参考基因组注释文件ftp下载页面
1.6 回到GRCh38.p13页面,点击Download FASTA ,进入ftp下载地址:
ftp:///pub/release-100/fasta/homo_sapiens/
GRCh38.p13页面
ftp下载
可以看到,有一系列文件夹,其中dna文件夹,就是步骤1.2演示的参考基因组文件所在的文件夹,而cdna文件夹,存放的则是参考转录组文件
1.7 进入cdna文件夹,下载Homo_
参考转录组文件ftp下载页面
至此,我们就下载了人类参考基因组GRCh38版本的
参考基因组文件 Homo_y_
参考基因组注释文件Homo_
或者Homo_
参考转录组文件Homo_
2. 下载人类GRCh37参考基因组及注释文件
ENSEMBL主页GRCh37
GRCh37页面
GRCh37页面
GRCh37.p13页面
可以看到,这个页面就跟前面GRCh38.p13下载页面非常的类似了,我们可以点击Download DNA sequence (FASTA)进入到GRCh37的参考
基因组文件Ftp下载地址:
ftp:///pub/grch37/current/fasta/homo_sapiens/dna/
我们可以点击Download genes, cDNAs, ncRNA, proteins (FASTA)进入到GRCh37版本各种Fasta格式文件ftp下载地址:
ftp:///pub/grch37/current/fasta/homo_sapiens/
可以下载到GRCh37版本的参考基因组文件和参考转录组文件
人类参考基因组GRCh37版本
参考基因组文件:
ftp:///pub/grch37/current/fasta/homo_sapiens/dna/Homo_y_
参考转录组文件:
ftp:///pub/grch37/current/fasta/homo_sapiens/cdna/Homo_
参考基因组注释文件:(页面上并没有下载地址,但是可以根据前面GRCh38下载网页规律构建,将ftp网址里的fasta更换为gtf)
ftp:///pub/grch37/current/gtf/homo_sapiens/Homo_
参考基因组注释文件ftp下载页面
NCBI
UCSC
GENCODE


发布评论