基于主动学习的非实验蛋白数据挖掘方法研究

基于主动学习的非实验蛋白数据挖掘方法研究

ID:36543385

大小:4.17 MB

页数:57页

时间:2019-05-11

基于主动学习的非实验蛋白数据挖掘方法研究_第1页
基于主动学习的非实验蛋白数据挖掘方法研究_第2页
基于主动学习的非实验蛋白数据挖掘方法研究_第3页
基于主动学习的非实验蛋白数据挖掘方法研究_第4页
基于主动学习的非实验蛋白数据挖掘方法研究_第5页
资源描述:

《基于主动学习的非实验蛋白数据挖掘方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于主动学习的非实验蛋白数据挖掘方法研究ResearchonNon—experimentalProteinDateMiningwithActiveLearning学21009153完成日期:2013-04-26大连理工大学DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本论文不包含其他个人或集体已经发表的研究成果,也不包含其他已申请学位或其他用途使用过的成果。与

2、我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。学位论文题目:薹刍至垫迹韭窒丝盔鱼亟丝翌生亟叠!至缉堑作者签名:乐整日期:丝坐年—王月二L日大连理工大学硕士学位论文摘要蛋白质的功能与其亚细胞定位密切相关,针对蛋白亚细胞定位预测中实验数据缺乏的问题,利用主动学习方法,提出一种从非实验蛋白质数据中主动挑选样本的方法。该方法基于一个可以衡量样本有用性的评估函数,利用该函数估计出每个样本对于分类预测的价值从而主动挑选出最具价值的样本。以Swiss.Prot蛋白质数据库为基础,按照蛋白质条目信息对蛋白质进行筛选,然后用

3、PISCES对蛋白质序列进行处理,把得到的蛋白质序列进行PseAA特征提取,构建革兰氏阳性菌、革兰氏阴性菌和植物数据集。把主动学习方法引入蛋白亚细胞定位预测问题中,基于损失函数和标签概率,构建非实验标记样本挑选算法。利用三个分类器在三个数据集上进行实验,按照挑选出来的顺序把非实验样本逐渐加入到原始训练集中重新训练当前分类器并用测试集测试分类器的性能。实验结果~方面表明取得的最好预测结果均比未加非实验样本和加入所有非实验样本时高,这说明该算法可以选择合适数量的非实验样本从而提高预测效果;另一方面表明训练数据缺乏问题比较严重时,预测效果提

4、高的也越多,这说明非实验样本对于提高分类器性能的重要性。因此基于主动学习的非实验蛋白数据挑选算法能够有效实现最具价值样本的挑选,可以有效地解决蛋白亚细胞定位预测中实验数据缺乏的问题。关键词:主动学习;亚细胞定位预测;分类器;非实验数据;数据挖掘基于主动学习的非实验蛋白数据挖掘方法研究ResearchonNon.experimentalProteinDateMiningwithActiveLeamingAbstractProtein’Sfunctioniscloselyrelatedtoitssubcellularlocalizatio

5、n,Inordertoovercometheexperimentaldatasparsityproblem,usingactivelearningmethod,anactivesampleselectionmethodfromthenon.experimentalproteinsisadvanced.Thisapproachbasedonaevaluationfunctionwhichcanestimatethe‘'values’’ofnon-experimentalsamplestoactivelypickoutthemostval

6、uableones.BasedonSwiss.Protproteindatabase,filterproteinsinaccordancewiththeiritemsinformation.ThenusePISCEStoprocessproteinsequencesanddoPseAAfeatureextraction.Afterthesesteps,Gram-positivebacteria,Gram—negativebacteriaandplantdatasetsareconstructed.Withactivelearningm

7、ethod,basedonthelossfunctionandlabelprobability,anon-experimentalsampleselectionalgorithmisconstructed.Carryoutthreeclassificationexperimentsonthreedatasets。Theselectedsamplesareincrementallyaddedintotheoriginalexperimentaltrainingsettohelpretrainthecurrentclassifiersan

8、dthentesttheclassifiers.Onehand,theexperimentalresultsshowthatthebestresultisbetterthantheresultwithoutnon-exp

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。