基于序列信息的DNA_RNA结合蛋白识别.pdf

基于序列信息的DNA_RNA结合蛋白识别.pdf

ID:35007999

大小:2.71 MB

页数:69页

时间:2019-03-16

基于序列信息的DNA_RNA结合蛋白识别.pdf_第1页
基于序列信息的DNA_RNA结合蛋白识别.pdf_第2页
基于序列信息的DNA_RNA结合蛋白识别.pdf_第3页
基于序列信息的DNA_RNA结合蛋白识别.pdf_第4页
基于序列信息的DNA_RNA结合蛋白识别.pdf_第5页
资源描述:

《基于序列信息的DNA_RNA结合蛋白识别.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于序列信息的DNA/RNA结合蛋白识别RECOGNITIONOFDNA/RNABINDINGPROTEINSBASEDONSEQUENCEINFORMATION张军哈尔滨工业大学2018年6月国内图书分类号:TP391.4学校代码:10213国际图书分类号:621.3密级:公开工学硕士学位论文基于序列信息的DNA/RNA结合蛋白识别硕士研究生:张军导师:刘滨教授申请学位:工学硕士学科:计算机科学与技术所在单位:深圳研究生院答辩日期:2018年6月授予学位单位:哈尔滨工业大学Class

2、ifiedIndex:TP391.4U.D.C:621.3AdissertationsubmittedinpartialfulfillmentoftherequirementsfortheacademicdegreeofMasterofEngineeringRECOGNITIONOFDNA/RNABINDINGPROTEINSBASEDONSEQUENCEINFORMATIONCandidate:JunZhangSupervisor:Prof.BinLiuAcademicDegreeApplied

3、for:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:ShenzhenGraduateSchoolDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着基因组计划的启动和发展,蛋白质序列每年呈指数趋势爆炸式增长,然而其中已知结构和功能的蛋白质数量却增长缓慢。面对日

4、益增多的蛋白质序列,如何从中挖掘有用的信息进而有效地预测蛋白质的结构和功能成为当前一个亟待解决的难题。DNA和RNA结合蛋白是两种特殊的蛋白质,它们在多种有关基因的生命活动中扮演重要的角色,与很多疾病相关。虽然基于实验的方法能够比较准确地识别这两种蛋白,但这些方法的成本都非常高,而且对实验环境和设备有严格的要求。为了设计更加高效快捷的DNA和RNA结合蛋白识别方法,本课题以蛋白质序列信息为基础,对DNA和RNA结合蛋白识别问题进行了研究。针对现有基于序列的DNA结合蛋白识别方法性能有限的问题,本文

5、设计了一个基于加权投票的集成学习策略,结合现有的三种蛋白质表示方法(k-mer,PDT和PDT-Profile)及SVM算法构建了一个DNA结合蛋白识别模型iDNA-Prot-Vote。在国际上两个广泛使用的数据集上对其进行了测试,结果表明本文所提集成方法能够在基分类器的基础上提升DNA结合蛋白识别准确率,且集成模型iDNA-Prot-Vote的识别准确率高于大多数现存的方法。针对如何有效地表示蛋白质序列的问题,本文设计了三种基于PSFM谱的蛋白质特征提取方法,包括PSFM-DBT,PSFM-TT

6、和PSFM-RPT。在基准数据集和独立测试集上的测试结果表明本文所提的三种方法在DNA结合蛋白识别问题上优于大多数现存方法,且PSFM-DBT方法取得了最高的预测准确率。为了验证所提方法的有效性,本文在分子生物学层面对PSFM-DBT提取到的特征进行了分析,结果表明该方法确实能够有效抓取蛋白质特征。基于PSFM-DBT方法本文构建了一个DNA结合蛋白预测模型,并开发了相应的在线预测系统。针对DNA和RNA结合蛋白识别领域没有能够同时识别DNA结合蛋白、RNA结合蛋白以及非核酸结合蛋白的方法,本文基

7、于深度学习技术提出了第一个能够识别上述三种蛋白质的方法DeepDRBP。DeepDRBP分为两层,每层是一个分类模型,由一种深度神经网络结合一种蛋白质进化信息谱构成。第一层用来区分核酸结合蛋白(DNA/RNA-bindingproteins)和非核酸结合蛋白,第二层用来进一步确定在第一层中被预测为核酸结合蛋白的查询蛋白是DNA结合蛋白还是RNA结合蛋白。在基准数据集和Swiss-Prot新增蛋白质上的测试结果表明本文所提方法是一种有效的识别方法。此外,本文还提供了相应的在线预测系统。关键词:DNA

8、结合蛋白质;RNA结合蛋白质;PSFM-DBT;集成学习;深度学习-I-哈尔滨工业大学工学硕士学位论文AbstractWiththestart-upanddevelopmentofthegenomeproject,thenumberofproteinsequencesisincreasingexponentially.However,thenumberofproteinswithstructureandfunctionisincreasingslowly.Howtoextractu

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。