2024年6月4日发(作者:)
GEO数据库之芯片数据下载
GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通
量测序、基因芯片等方法获得的基因表达数据——这就方便大家利用
他人数据发文章了。
而进行GEO数据挖掘的第一步就是进行数据下载,但是进入网站
点点来下载,查询搜索工作就不少,下载下来的数据还不一定能看懂。
有没有什么方法可以解决这个问题呢?当然有——R包GEOquery!
下面就针对芯片数据,教大家用GEOquery包完成下载工作。
GEO数据
在下载之前要先了解GEO数据库具体存放的四类数据:GSE、
GDS、GSM、和GPL。
一个GSE Accession对应的是整个研究项目的系列的数据,可能
涉及不同平台;
一个GDS Accession对应的一个同一平台的数据集;
一个GSM Accession对应单一样品的数据信息,它只能是单一平
台的数据,往往,GSE 和GDS中会包含多个GSM数据;
一个GPL Accession,则对应一个platform信息。
R包安装与加载
GEOquery
## try if URLs are not supported
source('/biocLite.R')
biocLite('GEOquery')
Biobase
## try if URLs are not supported
source('/biocLite.R')
biocLite('Biobase')
正确加载
library('Biobase')
library('GEOquery')
setwd('F:/GEO') ############有需要可以设置路径
利用GSE Accession
通过阅读文献查找感兴趣的GSE Accession,下载对应的表达数
据和平台信息等,可以利用GEOquery中的getGEO()函数下载
series_。例如GSE70213:
> gse = getGEO('GSE70213', GSEMatrix =TRUE, destdir = '.',
getGPL = T, AnnotGPL = T)
###destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,
可以下载和获得平台的注释文件
gse为列表数据,对应的GSM是单平台,则length为1,之后
分别利用Biobase包中的exprs()、pData()和fData()获得表达数据、
样品处理分组等信息、芯片平台的设计注释信息,还可以利用
annotation()函数了解对应GPL Accession,譬如exprs()函数:
> exprSet=exprs(gse[[1]])
> head(exprSet,2)
GSM1720833 GSM1720834 GSM1720835 GSM1720836
GSM1720837 GSM1720838 GSM1720839 GSM1720840
GSM1720841 GSM1720842
10338001 2041.40800 2200.86100 2323.7600 3216.26300
2362.77500 2195.31800 2013.35900 2146.25800 1785.9460
2067.04100
10338002 63.78059 65.08438 58.3082 75.86145 66.9
5605 43.81526 49.11361 51.29279 48.9604 42.14286
GSM1720843 GSM1720844 GSM1720845 GSM1720846
GSM1720847 GSM1720848 GSM1720849 GSM1720850
GSM1720851 GSM1720852
10338001 1769.1150 1720.77400 1847.42900 2214.69800


发布评论