基于机器学习算法的DNA重组与非编码RNA预测模型研究

基于机器学习算法的DNA重组与非编码RNA预测模型研究

ID:36850832

大小:3.01 MB

页数:98页

时间:2019-05-16

基于机器学习算法的DNA重组与非编码RNA预测模型研究_第1页
基于机器学习算法的DNA重组与非编码RNA预测模型研究_第2页
基于机器学习算法的DNA重组与非编码RNA预测模型研究_第3页
基于机器学习算法的DNA重组与非编码RNA预测模型研究_第4页
基于机器学习算法的DNA重组与非编码RNA预测模型研究_第5页
资源描述:

《基于机器学习算法的DNA重组与非编码RNA预测模型研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东南大学博士学位论文中文摘要论文题目:基于机器学习算法的DNA重组与非编码RNA预测模型研究研究生姓名:江澎导师姓名:陆祖宏(教授)学校名称:东南大学在生物试验数据不断积累的今天,如何将数据变为知识和具有预测和推广功能数学模型将是一项十分具有挑战性和有意义的事情。近代机器学习技术的迅猛发展,为这‘‘研究提供了新的思路。DNA的同源重组和非编码RNA,作为后基因组时代的两个热门话题,受到了各国科学家高度的重视。本义止是利用机器学习方法对这两个话题的几个分支问题进行了研究,其主要工作包括:(I)真核生物减数分裂

2、过程中,基凶组某螳区域会发生较其它区域高的重组发生频率,这些区域被称作减数分裂重组热点(Hotspot)。与此相对应,减数分裂重组发生频率较低的区域我们称之为重组冷点(Coldspot)。虽然这些对重组冷热点的影响因素的研究有助_j.进一步揭示DNA重组的发生机制和成因.但是仅仅通过DNA的序列来预测其发生重组的概率依然是一项相当具有挑战性的工作。我们建立了一个随机森林分类模型,来预测酵母基因组中的重组冷热点。为了把模型应用于全基因组,我们提出了一个独立于开放阅读框的特征:带间隔的二联碱基丰度。我们用相同的

3、序列特征又建立了一个支持向最机模型来和随机森林模型进行比较,发现利用随机森林构造的模型在预测的特异性和敏感性上均优于利用支持向量机构造的模型。然后我们又开发了重组冷热点在线预测系统:RF.DYMHC(http://www.bioinf.seu.edu.cn/RecombinationD。用户提交酵母的DNA序列和运算参数(预测可靠性指数阈值和非霞叠扫描窗u的大小),在线系统将反馈给用户预测到的重组冷热点,并将它们用不同颜色标记出来。(2)我们开发了全基因组DNA重组率数据库:ReDB(Recombinati

4、onratedatabase),ReDB日前存储了六个物种的全摹州组重组率数据:人(Human),人鼠(rat),小鼠(mouse),果蝇(D.melanogaster),线虫(C.elegans)希;酵母(yeast)。ReDB的刚址足:http://www.bioinf.seu.edu.cn/Redatabase/。用户可以通过不同的方式查询数据库,例如可以通过染色体坐标,DNA片断的重组牢的相对重组率(therecombinationrates)或在全基因组上的重组率排名(therankingofth

5、erecombinationrates)等等。数据库存储了每条序列的不同细节信息,例如序列所在的染色体坐标,与这条序列重组率相应参考文献的超链接,以FAST#.格式的这条序列的序列信息等等。用户查询到的序列可以以批量下载的方式进行下载,这样方便了用户的存储和对序列其它方面的操作。(3)我们建立了一个随机森林回归模型(RandomForestRegression,RFR),来定量的预测siRNA的降解效率,并用相同的特征建立了支持向量回口1机模型(SupportVectorRegression,SVR)与之相

6、比较,发现随机森林刨归模型(RFR)在定量顶测IV东南大学博士学位论文的能力上优于支持向量回归机(SVR)。和现有的打分矩阵方法进行比较,发现我们的随机森林回归模型在筛选高效率的siRNAs上优于这些打分矩阵算法。和其它的机器学习预测模型进行比较,发现我们的方法优于这些方法。为了方便分子生物学家设计siRNAs,我们开发了计算机辅助sil讣lAs在线设计系统:RFRCDB—siRNAo它的网址是:http://www.bioinf.seu,edu.cn/siRNA/index.htm。RFRCDB.siRN

7、A与其它在线计算系统最大的差别在于RFRCDB.siRNA同时结合了siRNAs数据库搜索和siRNA降解效率预测这两个步骤。(4)我们结合了局域相邻j联结构组成(10calcontiguoustripletstructurecomposition)特征,最小自由能特征和随机化检验特征(randomizationtest),建立了随机森林分类模型来对具有茎环发夹结构的序列进行分类.从而区分哪些是真正的miRNA前体(realpre-miRNAs),哪些是假的miRNA前体(pseudopre.miRNAs)

8、。结果表明我们的方法在预测性能r显著的超过了Triplet-SVM-classifier。为了进一步研究到底是随机森林算法的本身优于支持向量机还是我们的特征优于Triplet-SVM-classifier,我们用我们建立随机森林相同的特征义建立了支持向量机模型,结果表明所建的这个分类器模型在性能上比我们的随机森林模型性能要差,但分类效果又要比Triplet-SVM-classifier好,这说明我们的随机森林算法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。