基于深度学习的蛋白质序列分类问题的研究与应用

基于深度学习的蛋白质序列分类问题的研究与应用

ID:20577820

大小:1.52 MB

页数:73页

时间:2018-10-13

基于深度学习的蛋白质序列分类问题的研究与应用_第1页
基于深度学习的蛋白质序列分类问题的研究与应用_第2页
基于深度学习的蛋白质序列分类问题的研究与应用_第3页
基于深度学习的蛋白质序列分类问题的研究与应用_第4页
基于深度学习的蛋白质序列分类问题的研究与应用_第5页
资源描述:

《基于深度学习的蛋白质序列分类问题的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于深度学习的蛋白质序列分类问题的研究与应用学科专业计算机软件与理论学号201521060220作者姓名邵丽芬指导教师高辉教授分类号密级注1UDC学位论文基于深度学习的蛋白质序列分类问题的研究与应用邵丽芬指导教师高辉教授电子科技大学成都申请学位级别硕士学科专业计算机软件与理论提交论文日期2018.03.22论文答辩日期2018.05.16学位授予单位和日期电子科技大学2018.06答辩委员会主席评阅人注1:注明《国际十进

2、分类法UDC》的类号。ResearchandApplicationofProteinClassificationbasedonDeepLearningAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerSoftwareandTheoryAuthor:LifenShaoAdvisor:ProfessorHuiGaoSchool:SchoolofComputerScience&Engineering摘要摘要抗氧化蛋白质能修复人类的DNA损伤,在癌症治疗等方

3、面发挥巨大的作用,因此抗氧化蛋白质序列的分类预测在药物学中至关重要。蛋白质分类问题已成为蛋白质组学研究中的一个重要分支,自实施人类基因组计划至今,各种不同类型的生物数据数量迅猛增长,通过生物化学实验的方法鉴定蛋白质序列的类别十分耗时耗力,因此生物信息学对蛋白质信息的鉴别迫切需要从自动化的计算方法中获得支持。数据挖掘作为一种融合了统计学和数据库知识等新发展的技术,为生物研究者在数据分析和信息挖掘方面提供了便利,为识别和挖掘蛋白质信息等提供了便捷的方法。本文主要研究了数据挖掘中兴起的深度学习方法在蛋白质序列分类中的应用,主要内容如下:1.介绍了蛋白质一级序列的特征提取和分类方

4、法。蛋白质一级序列包含足够的信息来预测蛋白质分子的生物功能,从其中提取的特征决定了后续分类器能达到的最佳性能。本文中应用生物中广泛使用的二肽组成来描述蛋白质序列信息,该特征提取方法无需借助其他任何信息,具有计算简单、快速的优点,对后续构建的分类器的性能好坏有决定性作用。2.提出了基于深度学习的蛋白质序列分类模型。较于依靠人工工程构造特征提取器的传统机器学习方法,深度学习本质是一种特征学习方法。深度学习将原始数据通过非线性的模型转变成为和分类有强关联性的抽象表示。本文的模型首先通过由编码器和全连接网络组成的特征学习网络,从原始特征向量学习到压缩的抽象特征,再使用t-SNE方

5、法将抽象特征降维到二维空间中,最后放入分类器SVM对蛋白质序列进行识别。实验表明该模型其有较高的抗氧化蛋白质的识别效果,在本文的实验数据上达到F1值0.8842,MCC值0.7409,准确率97.05%,召回率81.27%,优于传统的机器学习方法。3.基于文中提出的模型,开发了在线抗氧化蛋白质识别web服务。该服务具有在线预测用户提交的蛋白质序列是否为抗氧化蛋白质的功能,此外还提供本文所用到数据集下载,方便用户使用与研究。关键词:抗氧化蛋白质分类,g-gap二肽组成,深度学习,自编码网络IABSTRACTABSTRACTTheantioxidantproteincanre

6、pairDNAdamageofhumanbeings,thusitplaysanimportantroleinthetreatmentofcancer.Sotheclassificationofproteinsequencesiscrucialforthepredictionofoxidationinpharmacology.Sincetheimplementationofthehumangenomeproject,proteinclassificationproblemhasbecomeanimportantbranchofproteomics.Biologicalda

7、taincreasedexponentiallyeveryyear,thustheidentificationofproteinsequencesbybiochemistryexperimentisverytime-consuming.thedevelopmentofnewbiologicalinformationoncomputeralgorithmisefficientandhasreliablemeans,besideslearntostudyproteinclassificationproblem,andpredict

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。