学位论文-07720172-朱昱倍

学位论文-07720172-朱昱倍

ID:14942978

大小:1.40 MB

页数:73页

时间:2018-07-31

学位论文-07720172-朱昱倍_第1页
学位论文-07720172-朱昱倍_第2页
学位论文-07720172-朱昱倍_第3页
学位论文-07720172-朱昱倍_第4页
学位论文-07720172-朱昱倍_第5页
资源描述:

《学位论文-07720172-朱昱倍》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、上海大学硕士学位论文2010年5月中图分类号:单位代号:10280密级:学号:07720172硕士学位论文SHANGHAIUNIVERSITYMASTERDISSERTATION题目蛋白质生物功能的机器学习方法研究作者朱昱倍学科专业物理化学导师陆文聪教授完成日期二零壹零年五月62上海大学硕士学位论文2010年5月上海大学本论文经答辩委员会全体委员审查,确认符合上海大学硕士学位论文质量要求。答辩委员会签名:主任:委员:导师:答辩日期:62上海大学硕士学位论文2010年5月原创性声明本人声明:所呈交的论文是本人在导师指导下进行的研究工作。除了文中特别加以标

2、注和致谢的地方外,论文中不包含其他人已发表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:本论文使用授权说明本人完全了解上海大学有关保留、使用学位论文的规定,即:学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学校可以公布论文的全部或部分内容。(保密的论文在解密后应遵守此规定)签名:导师签名:日期:62上海大学硕士学位论文2010年5月上海大学理学硕士学位论文蛋白质生物功能的机器学习方法研究姓名:朱昱倍导师:陆文聪教授学科专业:物理化学上海大学理学院二零壹零年五月62上海大学硕

3、士学位论文2010年5月ADissertationSubmittedtoShanghaiUniversityfortheMaster’sDegreeinScienceUsingMachineLearningMethodsInInvesigationofProtein’sBiologicalFunctionsM.D.Candidate:ZhuYubeiSupervisor:Prof.LuWencongMajor:PhysicalChemistryScienceCollege,ShanghaiUniversityMay,201062上海大学硕士学位论文20

4、10年5月摘要近些年来,随着信息技术和生物检测手段的不断发展,生命科学的数据资源急剧膨胀。实验工作者在产生大量数据的同时,也对理论研究者提出了更多的难题。利用机器学习这一方法来分析这些数据,我们可以从中找出隐含的规律和模式,从而进一步加深对事物的认识。本文就是采取这一研究方法,对蛋白质的生物功能进行建模和预报。在本文的工作中,我们使用了机器学习方法来对蛋白质和小分子的相互作用、蛋白质糖基化位点的识别进行建模和预报。另外我们还探讨了一系蛋白质列生物功能在线预报系统的建设和优化。本文的主体工作分为三个部分:1.用集成学习算法对蛋白质和小分子的相互作用进行研

5、究。我们针对代谢途径下的酶和底物之间的相关作用,建立了相互作用预报模型。通过对数据集的变量筛选和降维的评价,我们保留了原有的变量集合。在后续的建模过程中分别用AdaBoost,Bagging,SVM,KNN,决策树对酶和底物进行建模。10组交叉验证和独力测试集的结构显示,集成学习方法AdaBoost,Bagging的分类能力最好,都达到了71%以上。而我们接着又把不同的分类器组合集成后发现,前2个性能最好的集成学习算法和KNN组合后的体系具有最好的推广能力,其独立测试集中正样本的正确率又在原先最好的结果下提高了近4%,而其总体正确率也达到了84.6%。

6、结果证明,多重集成学习算法可以用来研究蛋白质和小分子相互作用,所得到的模型有很好的预测性能。此外,我们根据所建立的酶和底物相互作用的预测模型,同时开发了相应的在线预报系统。2.用CFS-Wrapper筛选变量法结合AdaBoost集成方法对蛋白质O端糖基化位点进行研究。在许多的生化过程中都需要有O-端糖链的参与。然而糖基化是一个复杂的过程,迄今为止还未得出一个固定的模式。我们对收集到的糖基化和非糖基化肽段,并用肽段中残基的物化参数,以AAIndex库中的数据进行表征。62上海大学硕士学位论文2010年5月分别尝试了CFS方法以及PCA主成分变换进行变量

7、筛选。在进行初步的变量筛选后,分别用SVM、KNN、C4.5、AdaBoost、Bagging对不同的变量筛选方法进行多组交叉验证和独立测试集的评价。接着确定以AdaBoost建模和CFS变量筛选结果为基础,做进一步的Wrapper筛选。最终筛选出23个变量的子集。其十组交叉验证正确率在88.1%、独立测试集正确率在87.5%。根据该模型,我们开发了蛋白质糖基化点位的在线预报系统。1.利用Java网页技术、weka软件、第三方开发包等工具开发出了一系列蛋白质生物功能在线预报系统。我们分别从设计原理,实现方法以及优化手段等提出了自己的看法和见解。这些在线

8、预报系统涉及到亚细胞定位、翻译后修饰、蛋白质相互作用、酶和底物作用等方面的内容。其中采取MVC

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。