基因表达数据挖掘方法研究

基因表达数据挖掘方法研究

ID:32968659

大小:2.00 MB

页数:49页

时间:2019-02-18

基因表达数据挖掘方法研究_第1页
基因表达数据挖掘方法研究_第2页
基因表达数据挖掘方法研究_第3页
基因表达数据挖掘方法研究_第4页
基因表达数据挖掘方法研究_第5页
资源描述:

《基因表达数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西北农林科技大学硕士学位论文基因表达数据挖掘方法研究姓名:谷耀军申请学位级别:硕士专业:计算机应用技术指导教师:何东健;张阳20080501基因表达数据挖掘方法研究摘要DNA芯片技术近年来得到蓬勃发展,每天都有大量的DNA序列数据涌现。海量的生物信息数据库中隐藏着与生理学和医药学有关的重要信息,因此,采用有效的手段从海量生物信息数据库中找出影响样本类别的特征基因,实现致病基因的准确识别,对疾病的诊断和治疗有重要的意义。针对基因表达数据量大、维数高、样本少、非线性,导致分类器计算复杂度高、计算时间长,最终分类效果并不理想的问题,论文以Leuke缸a、Colon和

2、Prostate3种常见病例基因表达数据为研究对象,重点研究基于支持向量机的基因表达数据分类方法,SVM法线、信息增益和Ⅳ2统计3种特征基因选择算法;并根据独立测试和10.折交叉验证结果对分类器性能进行评价。为快速准确地诊断、识别基因表达数据类别提供技术依据。主要工作和结论如下:(1)针对分类分析中分类器的选取,通过比较支持向量机和Jj}最近邻域、决策树、贝叶斯、人工神经网络特点与原理,以3种基因表达谱数据集为实验对象,比较了5种分类算法的分类效果。实验结果表明,SVM算法的准确率高于其他算法,并且SVM分类器中的线性核表现更为突出,线性SVM在3个数据集上的

3、独立测试分类准确率分别达到97.1%、87.1%和100%,10.折交叉验证分类准确率分别到达97.4%、96.8%和98.5%。为分类模型中分类器的优选提供了依据。(2)为提高特征基因选择的有效性,对信噪比、f统计、x2统计、信息增益和SVM法线算法等特征选择算法进行了深入研究,通过5种算法进行特征选择获得的特征子集,在线性SVM下进行了分类结果的分析与比较。独立测试结果表明,SVM法线算法、信息增益、x2统计的分类准确率、稳定性均优于信噪比和f统计,3者分别在3种数据集中的特征基因选择效果稍优于另两种算法,。选择的10个特征的子集,样本识别率分别达到了97

4、.1%、87.1%、97.1%。10一折交叉验证结果表明,SVM法线算法远优于其他算法。在3个数据集上选择出10、17、13个特征的子集,准确率均达到100%。从上述结果可知,以SVM法线算法为主,信息增益和x2统计为辅的特征选择更为有效。(3)在Eclipse平台下用Java语言进行开发,实现了信噪比、f统计、x2统计、信息增益和SVM法线5种特征选择算法,并整合了特征选择和支持向量机算法的分类预测过程,可完成特征空间内连续点的特征子集的特征选择和分类分析,借助于J毹eChan开源组件,将所得分类结果以曲线图形式表现出来,便于观察比较、分析。关键词:基因表达

5、数据;’数据挖掘;特征选择;支持向量机;SVM法线算法STUDYOFDATAMININGMETHODSFORGENEEXPRESSANAI』ySISABSTRACTDNAc11iptechnolog),h嬲beenboomillgrecently,plentyofDNAsequencedatahaVeemergedeveryda弘SomeirnportantinformationofphysiologyandmedicinehaSbeenhiddeniIlm硒sivedatabasesofbiolo西caliIlfomation,mercfore,auaopt

6、mgtlleea’ectiVemeallst0f.mdoutⅡlcfca:tI】regenewmcha虢ctScl硒si6cation丘DmthemaSsivedatabasesofbi010百c2LliI面衄撕。玛realiziIlgmediagnosethatpathopoiesiagenecolndbediStinguishedaccllrately,that、耐11bebeneficialtothedisease锄dtreatS.’Theclmmcteristicofgeneexpressiondata、】v!Ilichisl鹕e锄。吼t,11i911

7、dimellsio玛smansalllple,non.1m盯’leadt0lli曲caJculatecomplicateddegreeandthecomplica=蜘degreeofclassifieLandcauseu惭ma主eClaSsificationresultsbac吼lrate.Wbselectthreecommongeneexpressiondatasets雒theobjeCtofstudy、)~r!}lichisLeuke商如Colona11dProstate,focusongeneexpressionda_tacl鹤sificationmet

8、hodbas弓donsupportVe

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。