DNA序列分类的数学模型

DNA序列分类的数学模型

ID:8220587

大小:387.46 KB

页数:8页

时间:2018-03-10

DNA序列分类的数学模型_第1页
DNA序列分类的数学模型_第2页
DNA序列分类的数学模型_第3页
DNA序列分类的数学模型_第4页
DNA序列分类的数学模型_第5页
资源描述:

《DNA序列分类的数学模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第31卷第1期数学的实践与认识Vol131No112001年1月MATHEMATICSINPRACTICEANDTHEORYJan.2001DNA序列分类的数学模型吕金翅,马小龙,曹芳指导老师:陶大程(中国科学技术大学,合肥230026)编者按:本文能从生物学背景提出不同的三种判别模型.建模的分析和文字叙述条理清楚,模型一对21—40和182样本均进行了分类,分类正确率较高.摘要:本文从三个不同的角度分别论述了如何对DNA序列进行分类的问题,依据这三个角度分别建立了三类模型.首先,从生物学背景和几何对称观点出发,建立了

2、DNA序列的三维空间曲线的表达形式.建立了初步数学模型-积分模型,并且通过模型函数计算得到了1到20号DNA序列的分类结果,发现与题目所给分类结果相同,然后我们又对后20个DNA序列进行了分类.然后,从人工神经网络的角度出发,得到了第二类数学模型-人工神经网络模型.并且选择了三种适用于模式分类的基本网络,即感知机模型,多层感知机(BP网络)模型以及LVQ矢量量化学习器,同时就本问题提出了对BP网络的改进(改进型多层感知机),最后采用多种训练方案,均得到了较理想的分类结果.同时也发现了通过人工神经网络的方法得到的分类结果

3、与积分模型得到的分类结果是相同的(前四十个).最后,我们对碱基赋予几何意义:A.C.G.T分别表示右.下.左.上.用DNA序列控制平面上点的移动,每个序列得到一个游动曲线,提取游动方向趋势作为特征,建立起了模型函数,同时也得到了后二十个DNA序列的分类结果,而且发现结果与上述两个模型所得到的分类结果几乎相同(其中有一个不同,在本模型中表示为不可分的).此模型保留的信息量更多,而且稳定性更强.1问题的重述(略)2基本假设及模型建立:第一类数学模型:积分模型DNA序列是一种用4种字母符号(A、T、G、C)表达的一维链.在这

4、条链上不仅包含有制造人类全部蛋白质的信息(也就是基因),还有按照特定的时空模式把这些蛋白质装配成生物体的四维调控信息(三维空间和一维时间),找到这些信息的编码方式和调节规律是人类基因组研究的首要科学问题.下面我们首先将着手从几何学的角度来分析DNA序列.鉴于自然界对称这一朴素原理,我们的模型始于对4种碱基对称性的考察.图111(略)从纯化学的角度,我们可以将碱基进行两类划分:(1)按双环或单环结构,可分为:嘌呤碱基R(A或G)与嘧啶碱基Y(C或T)(2)按环中对应位置上是否存在氨基或酮基,可分为:氨基碱基M(A或C)与

5、酮基碱基K(G或T)从生物学的角度,在双螺旋结构中,按碱基对形成氢键的数目或强弱,碱基又可分:强氢键碱基S(G或C)与弱氢键碱基W(A或T),这一种划分既包含了化学的也包含了DNA双螺旋的结构信息在内.参照基本粒子理论中的做法,我们利用三维Euclid空间中的对称几何图形——立方体G来表示碱基的上述三种对称性.如图112所示,以G的中心为坐标原点建立三维直角坐1期吕金翅等:DNA序列分类的数学模型47标系,使G的三组对面分别与三条坐标轴相垂直.分别与X,Y,Z轴相交的G的三组对面称为嘧啶ö嘌呤面,酮基ö氨基面,弱氢键ö

6、强氢键面.在G的六个面中各引一条对角线,使相对面的对角线两两相互垂直,如图112所示.在嘌呤面对角线的两端分别标上A和G;在嘧啶面对角线的两端分别标上C和T,如图112所示.显然,此时上述碱基的三种对称关系全部自动成立.而且,六条对角线刚好是正四面体ACGT的六条棱.图112用立方体表示碱基的三种对称性现在考察一个长为L的单链DNA序列,阅读方向不限.从第一个碱基开始,依次考察此序列,每次只考察一个碱基.当考察到第n个碱基时(n=1,2,⋯,L),统计一下从1到n这个子序列中四种碱基各自出现的次数,并以An、Cn、Gn

7、、Tn分别表示4种碱基A、C、G、T出现的次数,如图113所示.显然它们都是非负整数.根据正四面体的对称性我们可以证明,正四面体内存在唯一的一个点Pn与这四个非负整数一一对应.在图113所示建立的坐标系之下,点Pn的坐标可用四个非负整数来表达.Xn=2(An+Gn)-n,Yn=2(An+Cn)-n,Zn=2(An+Tn)-n,Xn,Yn,Zn∈[-n,n],n=1,2,⋯,L;其中Xn,Yn和Zn为点Pn的三个坐标分量.当n从1到L时,我们依次得到P1,P2,⋯,PL共L个点.将相邻两点用适当的曲线连接所得到的整条曲线

8、,就成为表示此DNA序列的P2曲线.可以证明,P2曲线与所表示的DNA序列是一一对应的,也就是说,给定一定DNA序列,存在唯一的一条P2曲线与之对应;反之,给定一条P2曲线,可以找到唯一的一个DNA序列与之对应.换言之,P2曲线很大程度上包含了DNA序列的内蕴信息.P2曲线48数学的实践与认识31卷图1.3DNA序列示意图是与符号

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。