matlab生物信息学工具箱新增功能

matlab生物信息学工具箱新增功能

ID:14101855

大小:90.00 KB

页数:11页

时间:2018-07-26

matlab生物信息学工具箱新增功能_第1页
matlab生物信息学工具箱新增功能_第2页
matlab生物信息学工具箱新增功能_第3页
matlab生物信息学工具箱新增功能_第4页
matlab生物信息学工具箱新增功能_第5页
资源描述:

《matlab生物信息学工具箱新增功能》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、Matlab生物信息学工具箱新增功能——处理GEO系列数据本文讨论Matlab生物信息学工具箱用于获取并处理NCBI基因表达数据库(GEO)系列数据集的新功能。引言NCBI基因表达数据库是存储高通量微阵列实验数据最大的公共数据库,包括四种实体类:GEO平台(GPL)、GEO样本(GSM)、GEO系列(GSE)和修订GEO数据集(GDS)。一条平台记录描述了实验所用芯片的元件列表如:cDNAs、寡核苷酸探针集等,每个平台记录拥有一个唯一、稳定的GEO存取号(GPLxxx)。一条样本记录描述每个样本的处理条件、操作、每个元件的丰度测量值,每个样本记录

2、拥有一个唯一、稳定的GEO存取号(GSMxxx)。一条系列记录定义了一组相关的样本并提供了整个研究的焦点和描述信息,也包含描述提取数据的表、概要结论或分析,每个系列记录拥有一个唯一、稳定的GEO存取号(GSExxx)。一条数据集记录(GDSxxx)代表一个生物学和统计学可比较的GEO样本的集合,GEO数据集是GEO样本数据的修订集。Matlab生物信息学工具箱提供了获取并解析GEO格式数据文件的函数,GSE,GSM,GSD和GPL数据可以通过调用getgeodata函数获取,该函数也能将获取的数据保存到一个文本文件中,GEO系列记录可以SOFT格

3、式文件和制表符分割的文本格式文件获得,可以用geoseriesread函数读取GEO系列文本格式文件,用geosoftread函数读取通常相当大的SOFT格式文件。本文用实例演示如何调用这些函数获取并解析GEO系列数据,以获取GSE5847数据集为例,进行统计分析,该数据集包括15个发炎引起的乳腺癌(IBC)病例和35个非发炎引起的乳腺癌病例的肿瘤基质和上皮细胞的实验数据。(Boersmaetal.2008)获取GEO系列数据函数getgeodata返回一个数据结构包含来自GEO数据库的数据,可本地保存这些数据用于下一步的Matlab子程序,用g

4、eoseriesread解析GSE文本格式文件。11gseData=getgeodata('GSE5847','ToFile','GSE5847.txt')gseData=Header:[1x1struct]Data:[22283x95bioma.data.DataMatrix]该数据结构包含一个Header域保存系列数据的元数据,一个数据域保存系列矩阵数据。探索GSE数据数据域中的GSE5847矩阵数据以DataMatrix对象存储,该对象类似于Matlab二维阵列数据结构,但增加了行名、列名等附加的元数据,这些对象的属性可以象其它Matlab

5、对象一样存取。get(gseData.Data)Name:''RowNames:{22283x1cell}ColNames:{1x95cell}NRows:22283NCols:95NDims:2ElementClass:'double'行名是芯片探针集的标识符,列名是GEO样本存取号。gseData.Data(1:5,1:5)ans=GSM136326GSM136327GSM136328GSM136329GSM1363301007_s_at10.459.39959.42489.47299.27881053_at5.71954.84934.732

6、14.72895.3264117_at5.93876.08336.4486.17696.5446121_at8.02317.89478.3458.16328.2338111255_g_at3.95483.96323.96414.08783.9989系列元数据存储于Header域,其中Header.Series域包含系列信息,Header.Sample域包含样本信息。gseData.Headerans=Series:[1x1struct]Samples:[1x1struct]系列域包含实验名称和芯片GEO平台ID。gseData.Header.Se

7、riesans=title:'TumorandstromafrombreastbyLCM'geo_accession:'GSE5847'status:'PubliconSep302007'submission_date:'Sep152006'last_update_date:'Jan242008'pubmed_id:'17999412'summary:[1x250char]overall_design:[1x205char]contributor:[1x42char]sample_id:[1x950char]contact_name:'Stefa

8、n,,Ambs'contact_laboratory:'LHC'contact_institute:'NCI'contact_addre

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。