人类基因组中若干序列统计的分析

人类基因组中若干序列统计的分析

ID:32079467

大小:1.33 MB

页数:43页

时间:2019-01-31

人类基因组中若干序列统计的分析_第1页
人类基因组中若干序列统计的分析_第2页
人类基因组中若干序列统计的分析_第3页
人类基因组中若干序列统计的分析_第4页
人类基因组中若干序列统计的分析_第5页
资源描述:

《人类基因组中若干序列统计的分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要随着人类基因组计划的完成,生物学的研究进入后基因组时代,如何从已经产生的海量数据中最大限度的挖掘有价值的信息,破解生命之谜成为理论生物学家面临的一个机遇和挑战。DNA序列的统计分析对于解读人类基因组所隐藏的结构和功能有非常重要的意义。现有多种统计分析方法用于挖掘隐含在DNA序列中的遗传信息。本论文主要结合生物学的特征,利用信息论来分析人类Y染色体八个回文序列中的碱基关联、’利用语言学中的Zipf方法分析人类基因组中12条染色体中紧邻核苷酸的语言特征。本论文主要内容如下:1.介绍分子生物学基础知识、人类基因组计划;2.介绍回归

2、分析和信息论理论基础知识;3.在信息论和统计学方法的基础上,利用互信息、‘/1字’熵、条件熵,定量分析人类Y染色体回文序列的碱基关联,发现其中既存在长程关联,也存在短程关联,并且它们都是由序列中的重复序列引起的;4.利用语言学中的Zipf方法分析了人类基因组12条染色体(Y22,2l,20,l9,18,17,16,15,14,13,12)中16种紧邻核苷酸(AA,AC,AG⋯,m的频率及关联度的分布特征。发现紧邻核苷酸频率分布满足线性函数关系,关联度分布满足逆函数关系,且线性函数和逆函数的拟合系数取决于GC含量。此工作分析了紧邻

3、核苷酸的频率分布,并且首次提出了紧邻核苷酸的关联度分布,对DNA序列语言特征的研究做出了延伸。关键字;信息论互信息回文序列碱基关联Zipf定律紧邻核苷酸频率分布关联度分布AbstractWiththeaccomplishmentofHumanGenomeProject,lifescienceiscomingintopostgenomeera.Itisopportunitiesandchallengesfortheoreticalbiologistthathowtominingvaluableinformationfrommass

4、ivedataandtoresolvethemysteryoflife.ThestatisticalanalysisofDNAsequenceisofimportanceforunderstandingthestructureandfunctionofgenomes.SeveralstatisticmethodshavebeenproposedtostudythegeneticinformationstoredinDNAsequence.Inthisstudy,combinewithbiologicalcharacteristi

5、cs,weuseinformationtheorytoanalyzethebasecorrelationsinhumanYchromosomepalindromesanduseZipf'sapproachinlinguisticstoanalyzethestatisticalfeaturesof丘equencyandcorrelationof16nearestneighboringnucleotidesin12humanchromosomes.Themaincontentsareasfollows:1.Introducetheb

6、asicknowledgeofmolecularbiologyandtheHumanGenomeProject.2.IntroduceRegressionAnalysisandthebasicknowledgeofinformationtheory.3.Inchapter3,onthebasisofinformationtheoryandstatisticalmethods,weusemutualinformation,n-tupleentropyandconditionalentropy,toanalyzethebasecor

7、relationsinhumanYchromosomepalindromes;wefindthatthelongrangecorrelationandshortrangecorrelationinthemandtheoriginofthesesignalsarethepresenceofinterspersedrepeatsequences.4.Inchapter4,theZipf'sapproachinlinguisticsisutilizedtoanaly’zethestatisticalfeaturesoffrequenc

8、yandof16nearestneighboringnucleotides(AA,AC,AG⋯,TT)iIl12humanchromosomes(Y22,21,20,19,18,17,16,15,14.13,and12).Wefindthestatistical

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。