欢迎来到天天文库
浏览记录
ID:28661046
大小:776.93 KB
页数:6页
时间:2018-12-12
《bioconductor基因芯片大数据分析报告报告材料系列一大数据地读取》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、Bioconductor基因芯片数据分析系列(一):R包中数据的读取R软件的Bioconductor包是分析芯片数据的神器,今天小编打算推出芯片数据的系列教程。首先讲数据读取,以CLL数据包中的数据为例。打开Rstudio。#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的source("http://bioconductor.org/biocLite.R");biocLite(“CLL”)图1.显示已经安装好Bioconductor了,版本为3.4#打开CLL包library(CLL)图2.显示打开CLL成功图3.右侧栏内可见看到目前载入的程序包data(CLLba
2、tch)#调用RMA算法对数据预处理CLLrma<-rma(CLLbatch)#读取处理后所有样品的基因表达值e<-exprs(CLLrma)#查看数据e我们可以看到,CLL数据集中共有24个样品(CLL10.CEL,CLL11.CEL,CLL12.CEL,等),此数据集的病人分为两组:稳定组和进展组,采用的设计为两组之间的对照试验(ControlTest)。从上面的结果可知,Bioconductor具有强大的数据预处理能力和调用能力,仅仅用了6行代码就完成了数据的读取及预处理。Bioconductor基因芯片数据分析系列(二):GEO下载数据CEL的读取首先得下载一个数据,读
3、取GEO的CEL文件采用如下命令:登陆pubmed,找到一个你感兴趣的数据库在底下栏目下载CEL文件打开R软件#安装所需的R包以及CLL包,注意大小写,一般函数都是小写的source("http://bioconductor.org/biocLite.R");biocLite(“CLL”)>library(affy)>affybatch<-ReadAffy(celfile.path="GSE36376_RAW")请注意目录的路径,在window下,反斜杠‘’要用转义字符“\”表示。然后可以使用RMA或者MAS5等方法对数据进行background.correction,no
4、rmaliztion,pm.correct等等一系列处理。如果你一切用默认参数,则可以使用如下命令:>eset<-rma(affybatch),oreset<-mas5(affybatch)>exp<-exprs(eset)exp就是数字化的表达谱矩阵了请注意,rma只使用匹配探针(PM)信号,exp数据已经进行log2处理。mas5综合考虑PM和错配探针(MM)信号,exp数据没有取对数。下一期就得等到2017年春节期间啦,敬请期待~另外一种是直接利用GEO上面的GEO2R按钮里面的Rscript下载文件:#Versioninfo:R3.2.3,Biobase2.30.0,G
5、EOquery2.40.0,limma3.26.8#RscriptsgeneratedMonDec2606:54:42EST2016Server:www.ncbi.nlm.nih.govQuery:acc=GSE36376&platform=GPL10558&type=txt&groups=&colors=&selection=XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
6、XXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXXX
7、XXXXXXXXXXXXXX&padj=fdr&logtransform=auto&columns=ID&columns=adj.P.Val&columns=P.Value&columns=F&columns=Gene+symbol&columns=Gene+title&num=250&annot=ncbi#Unabletogeneratescriptanalyzingdifferentialexpression.#Invalidinput:atleasttwogroupsofsamples
此文档下载收益归作者所有