生物序列分析中的若干数学方法.pdf

生物序列分析中的若干数学方法.pdf

ID:52457399

大小:363.60 KB

页数:14页

时间:2020-03-27

生物序列分析中的若干数学方法.pdf_第1页
生物序列分析中的若干数学方法.pdf_第2页
生物序列分析中的若干数学方法.pdf_第3页
生物序列分析中的若干数学方法.pdf_第4页
生物序列分析中的若干数学方法.pdf_第5页
资源描述:

《生物序列分析中的若干数学方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高校应用数学学报A辑Appl.Math.J.ChineseUniv.Ser.A2005,20(4):379-392生物序列分析中的若干数学方法谢惠民(苏州大学数学系,江苏苏州215006)摘要:生物序列是由4种核苷酸组成的核酸序列和由20种氨基酸组成的蛋白质序列.论文介绍生物序列研究中的计数方法、组分分析方法、隐马尔可夫模型方法以及它们的某些应用.关键词:生物序列;计数问题;组分分析方法;隐马尔可夫模型中图分类号:Q3;O213文献标识码:A文章编号:1000-4424(2005)04-0379-14H1数学与生物学的联姻回顾历史,在数学与其他自然科学的关系中,物理学无疑最密切,

2、而生物学则最遥远,这早就是人们的共识.在恩格斯的I自然辩证法J中可以看到K数学的应用LL在生物学中O1PM0.N然而目前情况正在起变化.例如最近有一篇评论,其标题中将生物学比作为数学的下一个物理学,而将数学比作为生物学的下一个显微镜,这显然是对于生物学和数学之间关系的一种全新的期望.说来有点奇怪的是,有许多数学研究或工具起源于生物学.例如,计算机科学中的有限自动机起源于MQCRllSQh-Titts的第一个神经网络模型,形式语言中的U系统来自于UinVenWaXer对于线型生物的发育描述,元胞自动机起源于JShnvSnYeRWann对于生命自复制能力的形式化模拟,最有名的元胞自动

3、机,即由JShnCSnZaX提出的[heGaWeSUie是对于生命的繁殖和死亡现象的模仿,在许多最优化难题中有特效的遗传算法来自于对生物的遗传机制的学习,如此等等.反过来看,上面列举的几项内容都有许多应用和发展,但并没有在生物学研究中发挥多少作用.数学对于生物学的回报太少了.就现代生物学中占有突出地位的遗传学来说,数学工具应用于生物学研究的这种落后现象是有其内在原因的.这就是长期以来应用数学的发展大多以分析(即连续数学)为主,而几乎起源于智力测验和趣味数学的离散数学则没有得到长足的发展.可是现代遗传学中迫切需要的数学工具恰恰是离散性质的数学.为此只需看一下遗传学的发展历史.遗

4、传学是从MenVel的工作开始发展的O2P.他的最根本的发现是:遗传的本质是离散的,从而推翻了此前的K融合论N,后者就是一种连续论.众所周知,MenVel在1865年发表的收稿日期:2005-03-30基金项目:国家重点基础研究发展规划课题(G2000077308)高校应用数学学报A辑第20卷第4期380论文长期无人问津,直到1900年才被"重新发现".这与Mendel数豌豆的离散统计和数学建模方法不能为当时科学界接受是分不开的.在这之后,Morgan学派的重要贡献之一就是确定了基因在染色体上呈线性排列,其中的方法仍然是离散的统计方法.现代遗传学的发展完全肯定了生命的本质是离散的

5、,其秘密就隐藏在核酸(DNA与RNA)和蛋白质的序列之中.已经清楚,核酸与蛋白质都是一维有向不分岔的链式大分子.核酸由4种核苷酸聚合而成,而蛋白质则由20种氨基酸聚合而成.在这一个层次上它们都是一维序列,只是字母集S不同.对DNA序列和RNA序列来说,字母集分别为{A,C,G,T}和{A,C,G,U}.对于蛋白质序列,字母集含20个符号,用氨基酸的单字母符号记法就是{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}.人类基因组计划(HGP)以及其他许多测序工程就是要测定生物染色体中的DNA(或RNA)的全部序列,而基因就隐藏在这些序列之中.以下将D

6、NA序列、RNA序列和蛋白质序列统称为生物序列(biologicalsequences).它们是目前的生物学数据的主要部分.生物信息学(bioinformatics)就是在这样的背景下应运而生的前沿交叉学科[3],而数学与生物学将在这个新的框架中实现新的结合,其中离散数学工具无疑将会起重要作用.当然,这并不否定连续数学在生物学中的今后作用.以分析为中心的生物数学必然会继续发展.例如,以常微分方程为主要数学建模工具的代表作,Murray的MathematicalBiology(2002,3rded.)已经是两卷的巨著,其中所覆盖的生物学问题和分支已极其众多.下面列举生物序列的几个特

7、点.首先可以看到,生物学研究有多种层次,它们所跨越的特征尺度极大.将生物序列作为符号序列来处理是一种粗粒化方法,它对于一定层次上的生物学问题有效.其次,真实的生物序列来自测序.这类序列是在几十亿年时间的生物进化中形成的,主要的动力是自然选择.这里不可能存在先验的数学模型.对生物序列来说,如何建模是一个极大的挑战.生物序列的非均匀性和测序过程中难以避免的误测使得问题更为复杂和困难.从复杂性角度看,生命现象无疑是所有已知科学中最为复杂的对象.由于在DNA、RNA和蛋白质序列中隐藏有生

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。