生物序列比对的数学模型及应用

生物序列比对的数学模型及应用

ID:33616124

大小:451.78 KB

页数:8页

时间:2019-02-27

生物序列比对的数学模型及应用_第1页
生物序列比对的数学模型及应用_第2页
生物序列比对的数学模型及应用_第3页
生物序列比对的数学模型及应用_第4页
生物序列比对的数学模型及应用_第5页
资源描述:

《生物序列比对的数学模型及应用》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Seediscussions,stats,andauthorprofilesforthispublicationat:https://www.researchgate.net/publication/233730983MathematicalModelofBiosequenceAlignmentandIt’sApplicationsArticle·April2005CITATIONSREADS01322authors,including:JuntaoLiLundbeckSingapore44PUBLICA

2、TIONS255CITATIONSSEEPROFILESomeoftheauthorsofthispublicationarealsoworkingontheserelatedprojects:systemsbiologyViewprojectAllcontentfollowingthispagewasuploadedbyJuntaoLion28May2014.Theuserhasrequestedenhancementofthedownloadedfile.第35卷第1期数学的实践与认识Vol.35No

3、.12005年1月MATHEMATICSINPRACTICEANDTHEORYJan.,2005生物序列比对的数学模型及应用李军寿,刘来福(北京师范大学数学系,北京100875)摘要:生物信息学是一门新兴的交叉学科,数学在其中的应用十分广泛.生物序列比对是生物信息学中非常重要的一部分,主要介绍了在生物序列比对中所用的动态规划算法,应用此方法于水稻与拟南芥的蛋白质序列比对以及各物种ID基因的比对和进化研究.关键词:生物信息学;序列比对;动态规划1生物序列比对生物信息学是一门新兴的交叉学科,它所研究的材料是生

4、物学的观测数据,研究方法则是从各种计算模型技术衍生出来的.数学中的各个领域如统计学、概率论、运筹学、计算数学等均在生物信息学中有广泛的应用.DNA,RNA以及蛋白质序列的比对(Alignment)是生物信息学的重要研究内容.通过对比不同物种序列的相似性判断它们之间的同源性(Homologous),同源性较高的序列将很有可能具有相似的三维结构和生物学功能.如我们在完成人类的基因图谱后,将其和模式生物小鼠的基因序列作了比较,竟发现人类和小鼠有85%的同源基因C1J如果我们讨论的序列是一个DNA(或RNA)序列

5、,那么它的元素由A,C,G,T(或A,U,G,C)四种核昔酸组成,我们可以把这个序列表示为:X二(x1,X2,⋯,XN),x;任GF(4),i=1,2,⋯,N(1)其中GF(4)={A,T,G,C}是一个四元集合.在进化过程中由于基因突变会使序列X可能变为新的序列X'.基因突变有三种:T,:核昔酸的变异,如A变为G等;T2:缺失,如序列中某个分量A丢失;T3:增元,如A变为AG等.定义1我们称X‘是X的一个突变序列,如果X‘是由X经突变TI,TZ,T3变化而成的.又称在X上发生的T:和T,突变为错位突变,

6、没有错位的序列为对齐序列,我们在表示序列缺失时,需要在位移突变点加人一个“一”(gap)来表示此处缺失了一个核昔酸.于是就在组成原序列的四元素增加了一个虚拟元素,使GF(4)变成一个五元集合GF(5)={A,C,G,T,一},这时相应的序列:Y“(.v,,.y2,⋯,.YN),Y任GF(5),i二1,2,⋯,N(2)是一个五元集合上的序列.定义2如果Y由X插人若干个“一”的分量而成的序列,那么我们称Y是X的一个扩张.这时如把Y中的分量“一”除掉,那么Y就还原成序列X.两条序列X和Y的相似性将用得分函数来描

7、述.所谓得分函数就是五元集合GF(5)上的一个度量函数,我们记之为S(X,Y)收稿日期:2003-12-19万方数据6数学的买践与认识35卷NS(X,Y)=习s(x;,,、)(3)其中:(x;,y;)为x‘和y、比对时的得分值,它可以通过度量x;和y、间的相似度来定义,如:1ifx;=为:(二‘,y;)一{(4)0ifxj护y;X二(x1,x2,⋯,XN),Y=(y1,y2,⋯,YN-),其中N,N‘是X,Y的长度,不失一般性,我们取N之N',且令y,二“一”(少>N').比对问题就是求两个四元序列X,Y

8、的扩张序列X',Y'.使他们的得分S(X',Y')最大.如果讨论的是蛋白质序列,将有20个字母(氨基酸),那么只需将四元集合扩充到20元集合即可,其它的理论不变.生物序列的比对算法有动态规划算法和隐马模型方法,这里只介绍动态规划算法.2动态规划算法2.1全局比对:Needleman-Wunsch算法〔2]我们定义矩阵S,S(i,j)为序列X=(XI,x2,⋯,x-)和1'_(yI,Y2,⋯y.)最优比对时的得分值.下面我们来看

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。