《DNA序列分类》PPT课件

《DNA序列分类》PPT课件

ID:38592725

大小:255.01 KB

页数:20页

时间:2019-06-15

《DNA序列分类》PPT课件_第1页
《DNA序列分类》PPT课件_第2页
《DNA序列分类》PPT课件_第3页
《DNA序列分类》PPT课件_第4页
《DNA序列分类》PPT课件_第5页
资源描述:

《《DNA序列分类》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、DNA序列分类(2000年A题)2000年6月,人类基因组计划中DNA全序列草图完成,预计2001年可以完成精确的全序列图,此后人类将拥有一本记录着自身生老病死及遗传进化的全部信息的“天书”,这本大自然写成的“天书”是由4个字符A,T,C,G按一定顺序排列成的长约30亿的序列,其中没有“断句”,也没有标点符号,除了这4种字符表示4种碱基因以外,人们对它包含的“内容”知之甚少,难以读懂。破译这部世界上最巨量信息的“天书”时21世纪最重要的任务之一。在这个目标中,研究DNA序列具有什么结构,由这4个排成的看似随机的序列中隐藏

2、着什么规律,又是读懂这部天书的基础,是生物信息最重要的课题之一。虽然人类对这部“天书”知之甚少,但也发现了DNA序列中的一些规律和结构。例如,在全序列中有一些是用于编码蛋白质的序列片断,即由这4个字符组成64种不同的3字符串,其中大多数用于编码构成蛋白质的24种氨基酸。又例如,在不用于编码蛋白质的序列片断中A和T的含量特别多些,于是以某些碱基特别丰富作为特征去研究DNA系列的结构,也取得一些结果。此外,利用统计的方法还发现序列的某些片断之间具有相关性,等。这些发现让人们相信,DNA序列中存在着局部或全局的结构,充分发掘序

3、列的结构对理解DNA全序列是非常有意义的。目前在这项研究中,最普遍的思想是省略序列的某些细节,突出特征,然后将其表示成适当的数学对象,这种被称为粗粒化和模型化的方法往往有助于研究规律性和结构。作为研究DNA序列结构的尝试,提出下列对序列集合进行分类的问题:1)下面有20个已知类别人工制造的序列(略),其中1~10为A类,11~20为B类,请从中提取特征,构造分类方法,并用这些已知类别的序列,衡量你的方法是否足够好。然后用你认为满意的方法,对另外20个未表明类别的人工序列(序号21~40)进行分类,把结果用序号(按从大到小

4、顺序)表明他们的类别(无法分类的不写入);A类_____________;B_________________.请详细描述你的方法,给出计算机程序,如果你部分的使用现成的分类方法,也要将方法名称准确注明。这40个序列也放在如下地址的网页上,用数据文件Art-model-data标识,供下载;网易网址:www,163.com教育频道在线试题:教育网:www.cbi.pku.edu.cnNewsmcm2000教育网:www.csiam.edu.cn/mcm2)在同样网址的数据文件Nat-model-data中给出182个自然

5、DNA序列,它们都特长,用你的方法将它们分类,象1)一样的给出分类结果。提示:衡量分类方法的优劣标准是分类的准确率,构造分类方法有许多途径,例如提取序列的某些特征,给出它们的数学表示:几何空间或向量空间的元素等,然后再选择或构造适合这种数学表示的分类方法;又例如构造概率统计模型,然后用统计方法分类等。DNA序列的分类模型汤诗杰周亮王晓玲中国科技大学1.问题的提出(略)2.问题的分析为表述严格方便,先用数学方法重述问题。已知字母序列S1,S2,…,S40,Si=x1x2…xni,其中xj{a,t,c,g};A、B为两个字

6、符序列集合,满足AB=,且当1i10时,SiA,当11i20时,SiB。现要求考虑当21i40时,Si属于A、B那个集合。问题关键是从已知20个序列中提取分类特征。3.分类标准及评价所提取标准应满足以下两条:(1).必须可标志A组和B组。(2).必须有一定的实际意义。限制条件目标函数4.模型建立与分析尝试综合使用3种设计思想不同方法处理。第1种:从字母出现的频率出发。第2种:从字母出现的周期性出发。第3种:从序列所带的某些方面信息量出发。最后从这3方面出发,得一综合分类方法。方法1基于字母出现频率不同

7、段DNA中,每个碱基因出现频率不同,从生物理论知,编码蛋白质的DNA中G、C含量偏高,非编码蛋白质的DNA中A、T含量偏。故A、G、T、C出现频率有很多信息。表1,表2(略)分别给出A、B组字母频率。由统计数字知:A组C基因含量高,B组T基因含量高。为定量化分析,引入四维向量(PA,PG,PT,PC),其中PA,PG,PT,PC,分别表示A,G,T,C的频率。这样我们得到了两组向量Ai、Bi;i=1,2,…,10;然后将未知序列21~40作为一组新向量,要将它归入A组或B组。将向量单位化,分别记为Ai、Bi、C;再计计算

8、内积:即:内积=(PA,PG,PT,PC)A•(PA,PG,PT,PC)未知

9、A

10、•

11、未知

12、认为内积小的两个序列相关性小,内积大的认为相关性大。故当:C•Ai>C•Bi时:i=110i=110把C归入A类,否则归入B类。结论如表3(略):由此方法归纳出目标函数:F1()=C•Aii=110C•Bii=110

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。