DNA序列分析中的信息熵应用现状_詹青.pdf

DNA序列分析中的信息熵应用现状_詹青.pdf

ID:52454586

大小:243.04 KB

页数:6页

时间:2020-03-27

DNA序列分析中的信息熵应用现状_詹青.pdf_第1页
DNA序列分析中的信息熵应用现状_詹青.pdf_第2页
DNA序列分析中的信息熵应用现状_詹青.pdf_第3页
DNA序列分析中的信息熵应用现状_詹青.pdf_第4页
DNA序列分析中的信息熵应用现状_詹青.pdf_第5页
资源描述:

《DNA序列分析中的信息熵应用现状_詹青.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第10卷第1期生物信息学Vol.10No.12012年3月ChineseJournalofBioinformaticsMar.,2012doi:10.3969/j.issn.1672-5565.2012.01.10DNA序列分析中的信息熵应用现状詹青(哈尔滨工业大学计算机科学与技术学院,哈尔滨150001)摘要:信息熵理论是生物信息学研究的一个重要工具,它在DNA序列分析中有着广泛的应用。本文详细介绍了近年来诸多DNA序列分析问题中信息熵应用的研究进展,并分析了未来该问题的研究方向。关键词:DNA;序列分析;信息熵+中图分类号:TP391;Q

2、523.8文献标识码:A文章编号:1672-5565(2012)-01-044-04ApplicationofinformationentropyinDNAsequenceanalysisZHANQing(SchoolofComputerScienceandTechnologyHarbinInstituteofTechnology,Harbin150001,China)Abstract:Informationentropytheoryisanimportanttoolinbioinformatics.ItiswidelyusedinDNAse

3、quenceanal-ysis.Inthispaper,weintroducethedevelopmentofinformationentropyapplicationinDNAsequenceanalysisinrecentyears.Atlastsomevitalaspectsthatmaybeconductedinthefutureinvestigationsarediscussed.Keywords:DNA;sequenceanalysis;informationentropy生物信息学是现今生命科学与自然科学的重大各类DNA序列分析

4、问题中的应用情况。前沿研究领域之一,生物信息学是:为拓展利用生物的、医学的和行为学的数据而对计算工具的研究、开1使用信息熵分析DNA序列的依据发或应用,包括对这些数据的获取、储存、组织、存盘、分析或可视化。在生物信息学中,序列是最基本DNA序列可以看作字母表{A、G、C、T}上的一的数学模型,它被用来组织存储核酸分子和蛋白质串字符,对于DNA序列上连续K个字符的组合,称分子的一级结构。序列分析是生物信息学研究中一之为K-word、K-mer、K-tuple或K字,由于每个项重要的内容,在取得生物序列数据之后,通过分析字符可能有4种,则共有4K

5、种K字。在基因组序这些数据,可以了解生物大分子结构和功能的相关列上使用宽为K的滑动窗口,做步长为1的顺次滑信息。动,可以求出每种K字的频数。当K充分大时,可通过序列分析,研究人员可以发掘序列的保守以由K字频数分布推断出基因组序列,即此时基因区间与结构信息等,从而进行基因识别、SNP识别、组的K字频数分布是基因组的等价表示。由此可转录因子结合位点的识别、构建进化树等等研究。知,K字的频数分布蕴含了基因组的大量信息,它的在序列的分析中,序列间或一个序列内部各片段之概率分布在基因组研究中有着重要作用。由K字间的比较是一个基本的内容。由于序列结构的复

6、杂频数分布可以定义其信息熵,它可以在整体上把握性和功能的不确定性,无法采用某种度量来统一衡K字的特征。量比较的效果。因此,人们在研究中根据具体问题,理论上,对于一条随机生成的无限长的人工主观地采用一些相应的数学模型来对序列差异进行DNA序列,考虑其中的K字,则4K种K字的出现[1]衡量。DNA序列承载着生物的遗传信息,信息熵频率都是相等的。例如在这样的序列上,对于单核作为对信息的一种度量,也被研究人员应用到DNA苷酸(1字),A、G、C、T的出现频率均为1/4。对于序列分析之中。下面将简要介绍各种信息熵方法在有限长的人工生成的DNA序列以及该

7、序列的任意收稿日期:2011-06-08;修回日期:2011-08-21.作者简介:詹青,男,安徽安庆人,硕士。研究方向:生物信息学。Email:cyanzhan@gmail.com.第1期詹青:DNA序列分析中的信息熵应用现状45片段上,各个K字的出现频率也大致相同。而在自区块熵。区块熵Hn是序列上长度为n的片段的然界的生物DNA序列上,由于它承载着遗传信息,熵,即n字的熵。△Hn=Hn+1-Hn,为高阶累积区因此各种核苷酸的分布并不是随机的,各种K字的块熵,它度量了在序列片段的前n个字符已经确定分布也不再均匀。的情况下,第n+1个字符蕴含

8、的信息量,因此可以在DNA中,编码区域由于编码蛋白质,该区域用于DNA序列中核苷酸短程相关性的分析。研究上核苷酸的变异很可能会引起蛋白质序列的改变,结果表明,△Hn

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。