DNA序列的分类模型

DNA序列的分类模型

ID:8219491

大小:230.27 KB

页数:9页

时间:2018-03-10

DNA序列的分类模型_第1页
DNA序列的分类模型_第2页
DNA序列的分类模型_第3页
DNA序列的分类模型_第4页
DNA序列的分类模型_第5页
资源描述:

《DNA序列的分类模型》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第31卷第1期数学的实践与认识Vol131No112001年1月MATHEMATICSINPRACTICEANDTHEORYJan.2001DNA序列的分类模型汤诗杰,周亮,王晓玲指导老师:孙广中(中国科技大学,合肥230026)编者按:本文提出了DNA序列分类的三种模型,其一,基于A、G、T、C四种碱基出现的频率;其二利用了同一碱基在序列中的间隔,这一信息是单纯考虑频率所不能包含的;在第三种模型中,作者把DNA序列视为一个信息流,考虑每增加一个字符所带来的信息增量.尽管文中信息量的定义方式仍可讨论,

2、但本文思想新颖活跃,有其独特之处.本文最后的分类方法,是以上三种的综合使用.摘要:本文针对DNA序列分类这个实际问题,提出了相应的数学模型.为了很好的体现DNA序列的局部性和全局性的特征,我们给出了衡量分类方法优劣的标准,即在满足一定限制条件的情况下,是否能充分反映序列的各方面特性.依据我们提出的判别标准,单一标准的分类是无法满足要求的.我们的方法是侧重点不同的三种方法的综合集成.这三种方法分别体现了序列中元素出现的概率,序列中元素出现的周期性,序列所带有的信息含量.利用这个方法,完成了对未知类型的人

3、工序列及自然序列的分类工作.最后,对分类模型的优缺点进行了分析,并就模型的推广作了讨论.1问题的提出(略)2问题的分析这是一个比较典型的分类问题,为了表述的严格和方便,我们用数学的方法来重述这个问题.已知字母序列S1,S2,S3⋯⋯S40,Si=x1x2x3⋯xni,其中xj∈{a,t,c,g};有字符序列集合A,B,满足A∩B=<,并当1FiF10时,Si∈A;当11FiF20时,Si∈B.现要求考虑当21FiF40时,Si与集合A及集合B的关系.在这里,问题的关键就是要从已知的分好类的20个字母序

4、列中提取用于分类的特征.知道了这些特征,我们就可以比较容易的对那些未标明类型的序列进行分类.下面我们将首先对用于分类的标准问题进行必要的讨论.3分类的标准及评价首先,我们提取的特征应该满足以下两个条件:(1)所取特征必须可以标志A组和B组.也就是说,我们利用这些特征应该可以很好的区分已经标示分类的20个序列.这是比较显然的一个理由.(2)所取特征必须是有一定的实际意义的.这一点是决不能被忽视的.比如,如果不考虑模型的实际意义,我们就可以以序列的开头字母为分类标准:已知在B类中的十个序列都是以gt开始的

5、,而已知在A类中10个序列没有以gt开始的,甚至以g开始的都没有.显然这是满足上面的第一个条件的.如果仅因此就认为这种特征是主要的,并简单的利用这个特征将所有待分类的序列分成两类,显然是不甚合理的.©1994-2008ChinaAcademicJournalElectronicPublishingHouse.Allrightsreserved.http://www.cnki.net20数学的实践与认识31卷对于这样的一个复杂的分类问题,需要考虑的因素很多,也是就说,可供我们使用的分类特征有许多.如何从

6、众多的因素中提取分类的主要因素,是我们处理这个问题的困难之处.上面的第一个条件是我们的分类方法所必须满足的,可以看作是个限制条件;而第二个条件是我们在设计分类方法时必须考虑到的,可以看作是对分类方法优劣的一种衡量,是某种意义下的目标函数.4模型的建立及分析由上面的分析可知,由于DNA序列本身的复杂性,我们很难在不知道确切的分类标准的情况下,使用单一的方法来处理这个分类问题.由于,DNA序列同时具有局部性和全局性的特征,我们尝试综合使用几种设计思想不同的方法来处理这个问题,以使该分类方法具有好的分类性能

7、和相当的健壮性.下面我们先从不同的角度出发,提出三种侧重点不同的分类方法,第一种从频率角度出发,第二种从字母出现的周期性的角度出发,第三种从序列所带的某方面的信息量出发,并给出它们单独使用时的分类结果.我们认为,这三方面综合考虑,可以较好的体现出序列各个方面的特征,最后,从这三种方法出发,得到一个综合系统的分类方法,并利用它得到了最终的182个序列的分类结果.方法1基于字母出现频率不同段的DNA中,每个碱基出现的概率并不相同,从生物理论中,我们知道,编码蛋白质的DNA中G、C含量偏高,而非编码蛋白质的

8、DNA中A、T含量偏高.因此,A、G、T、C的频率中会含有很多的信息,下面给出A、B组的频率统计.见表1,表2(略).由统计的数字可以看出,A组的碱基构成与B组的碱基构成有较大的不同.A组的G含量较高,B组的T含量较高.为做定量化的分析,引入数学中的内积概念,即将A、T、G、C的频率分别作为四维向量的四个分量(PA,PG,PT,PC),现在我们得到两组向量Ai、Bi(i=1,2,3⋯⋯10),然后将未知的序列21~40作为一个新的向量C,要将它归入A组或

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。