关于dna序列分类问题的模型

关于dna序列分类问题的模型

ID:5351345

大小:359.10 KB

页数:7页

时间:2017-12-08

关于dna序列分类问题的模型_第1页
关于dna序列分类问题的模型_第2页
关于dna序列分类问题的模型_第3页
关于dna序列分类问题的模型_第4页
关于dna序列分类问题的模型_第5页
资源描述:

《关于dna序列分类问题的模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第31卷第1期数学的实践与认识Vol131No112001年1月MATHEMATICSINPRACTICEANDTHEORYJan.2001sequences.ThesecondistheperiodicpropertyoftheDNAsequences.Thethirdisthatamountofinformationofthesequences.Byusingthismethod,weclassifythenaturesequencesandartificalsequences.Atlast,weanalyzethecharacteristicint

2、hismodelandconsiderthegeneralizationofthismodel.关于DNA序列分类问题的模型冯涛,康吉吉雯,韩小军指导老师:贺明峰(大连理工大学,大连116024)编者按:本文以统计方法提取样本特征,以之作为BP神经网络的输入,用MATLAB中相应算法进行训练.然后用于解决本分类问题,得到了较准确的结果.本文提取特征时考虑较为全面,在此基础上正确地运用了神经网络方法,发挥了神经网络适用于非线性问题、具有自适应能力的优点.思路清楚,文字简练.摘要:本文提出了一种将人工神经元网络用于DNA分类的方法.作者首先应用概率统计的方法

3、对20个已知类别的人工DNA序列进行特征提取,形成DNA序列的特征向量,并将之作为样本输入BP神经网络进行学习.作者应用了MATLAB软件包中的NeuralNetworkToolbox(神经网络工具箱)中的反向传播(BackpropagationBP)算法来训练神经网络.在本文中,作者构造了两个三层BP神经网络,将提取的DNA特征向量集作为样本分别输入这两个网络进行学习.通过训练后,将20个未分类的人工序列样本和182个自然序列样本提取特征形成特征向量并输入两个网络进行分类.结果表明:本文中提出的分类方法能够以很高的正确率和精度对DNA序列进行分类,将人

4、工神经元网络用于DNA序列分类是完全可行的.1问题重述(略)DNA序列由四个碱基A、T、C、G按一定规律排列而成.已知所给人工序列1-10属于A类,11-20属于B类.本题中,我们的主要工作有两个:1)提取A、B两类特征;2)以所提取A、B两类特征为依据,把20个人工序列及182个自然序列分为A、B两类(可能存在同时不具有A、B两类特征,不能归为A、B中任一类的序列).在本题中,先以序列1-20为依据,提取出A、B两类序列的统计特征,然后运用神经网络中的BP网络对未知序列进行了分类识别.2模型建立的理论依据[1]神经网络是近年来发展的一种大规模并行分布处

5、理的非线性系统,其主要特点有:1)能以任意精度逼近任意给定连续的非线性函数;2)对复杂不确定问题具有自适应和自学习能力;3)具有较强的容错能力和信息综合能力,能同时处理定量和定性的信息,能很好地协调多种输入信息的关系.传统的分类识别方法,对于一般非线性系统的识别很困难,而神经网络却为此提供了一1期冯涛等:关于DNA序列分类问题的模型27个强有力的工具.它实质上是选择了一个适当的神经网络模型来逼近实际系统.目前,在神经网络中应用最多的是BP网络.对于具有n个输入节点,m个输出节点的BP网络,输入到输出的关系可以看作是一个nmn维欧式空间到m维欧式空间的映射

6、,F:R→R,这一映射是高度非线性映射.K.T.[2]Funahashi于1989年证明了这样的一个定理:如果BP网络隐层节点可以根据问题的不同作相应的配置的话,那么用三层的激励函数为双曲线正切型的BP网络,可以以任意精度逼近任意连续函数.这一定理保证了BP网络在分类识别问题中的可用性.将复杂系统看作是一个黑箱,以实测输入,输出数据为学习样本,送入BP网络,网络通[3]过样本进行学习,在学习过程中,网络的权值不断地修改,使输入到输出的映象逐渐与实际对象的特性相逼近,但网络输出的整体误差E小于给定的标准时,整个网络便模拟出实际系统的外部特性.实际分类识别问

7、题中,输入空间一般是多维欧式空间,我们可以计算空间中点与点的欧式距离,并根据这些距离知道哪些样本互相靠得近,哪些样本相距甚远,也就是说在输入空间中存在着一个距离度量,只要输入模式接近于某个输出模式,由于BP网络所具有的联想记忆能力,则网络的输出亦会接近学习样本的输出.3模型的基本假设1)假设碱基序列的特征值包括以下两个内容:(1)单个碱基在序列中的数量特征,即A,T,C,G四种碱基在序列中的含量;(2)特征碱基串在序列中的数量特征(包括双字符碱基串和三字符碱基串).2)由于给定的已知碱基序列是从DNA全序列中随机截取出来的,因此无法确定序列的起始位,无法

8、从序列中辨认出氨基酸.假设在对DNA序列分类时,是从碱基层次上进行分类,而不是从

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。