谈谈对基因组内不同序列分布差异进行量化的探讨

谈谈对基因组内不同序列分布差异进行量化的探讨

ID:11184164

大小:54.50 KB

页数:5页

时间:2018-07-10

谈谈对基因组内不同序列分布差异进行量化的探讨_第1页
谈谈对基因组内不同序列分布差异进行量化的探讨_第2页
谈谈对基因组内不同序列分布差异进行量化的探讨_第3页
谈谈对基因组内不同序列分布差异进行量化的探讨_第4页
谈谈对基因组内不同序列分布差异进行量化的探讨_第5页
资源描述:

《谈谈对基因组内不同序列分布差异进行量化的探讨》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、谈谈对基因组内不同序列分布差异进行量化的探讨  基因组常被比喻为一本生命天书,如果有几个关键词在书中出现的位置比较接近,则其关系可能比较密切。反之,若其出现的位置具有明显差异,则其可能关系较远。如果把序列看作是基因组内的关键词,则序列在基因组上出现的位置差异则可能说明这些序列之间的功能差异。如果两个重复序列在同一基因组上的分布相同,则说明这些序列之间可能有非常密切的关系。如果不同,则可以通过分布一致性检验来判断其差异是否具有统计学意义。当其差异具有统计学意义时,我们一般很想知道其差别到底有多大,以此来推断两者之间功能的差异。由于P值受样本含量的

2、影响,其大小难以反应分布之间的差异,因此需要寻找一个合适的指标对分布差异进行量化。相对熵(relativeentropy),又称KL散度(Kullback-Leiblerdivergence),是衡量不同分布之间差异的常用方法。但其有两个缺陷:①当计算的顺序不一样时,其结果不同;②对于定量数据,一般需将抽样数据进行适当分组再计算,而分组会损失一部分样本信息。Kolmogorov-Smirnov检验(KS检验)一般用于两种分布之间是否有差异的假设检验。该方法完全避免了相对熵计算所存在的两个缺陷。那么是否可以利用KS检验的统计量对分布之间差异进行量

3、化呢?另外,不同的分布具有不同累积概率曲线,而图心(centroid)可以视为一个图形的中心,那么累积概率曲线下图形的图心差异也有可能用于衡量分布之间的差异。本文就对这两个指标进行了一些探讨。  研究方法  1.赋值方法  如果将基因组看作[0,1],则基因组上序列出现的位置即可表示为[0,1]内的数字其他碱基以此类推。当基因组很长时,若干碱基组成的序列就可能大量重复出现在基因组的不同位置上,这些位置也都可以转为[0,1]上的数字,这样不同序列的分布就可转化为[0,1]上的各种分布。基因组越长,所需要的精度越高,如基因组长度为106的,则精度为

4、10-6,这样就可对不同序列的分布进行比较。  2.KS检验  原理KS检验是比较样本与理论分布之间,或两样本之间,累积概率的最大差异。在R语言中KS检验的统计量表示为D。该统计量D即累积概率的最大差异,由D值计算两样本相同的概率。  3.图心的计算  图心横坐标的计算:作一条垂直于横轴的线,若该线可以将图形面积二等分,则该线与横轴的交点为图心的横坐标。图心纵坐标的计算:作一条垂直于纵轴的线,若该线可以将图形面积二等分,则该线与纵轴的交点为图心的纵坐标。如图1所示,图中曲线为β(3,3)的累积概率曲线,其曲线下面积分别被两条平行于x轴

5、和y轴的虚线平分,这两条虚线的交点即该图形的图心。对于理论分布,采用迭代的方法查找图心坐标,最终坐标的误差小于10-10。对于抽样数据,则直接计算二分面积的位置。  数值模拟结果分析  采用数值模拟的方法对[0,1]上的若干分布进行了分析。所有随机数字的获取、统计分析和作图都使用R语言完成。数据模拟形式如上述。  1.样本含量  对两个指标的影响(1)样本含量对统计量D的影响数值模拟:分别根据5个β分布生成随机数字,然后利用KS检验进行均匀分布一致性检验。5个分布分别为β(1,1)、β(3,3)、β(1.

6、5,0.8)、β(2,0.5)、β(0.5,2),分别代表5条不同的序列。β(1,1)即均匀分布。5个分布的累积概率曲线。抽样的样本含量从100开始,逐次加100,直至10000。每个样本含量下进行1000次抽样。记录每组抽样数据均匀分布一致性检验所得的D值。每个样本含量根据所获得的1000个D值计算5个百分位数,即2.5%,25%,50%,75%,97.5%。每个分布由5条曲线构成,从下到上,分别表示D值的5个百分位数。随着样本含量的增加,D值的离散趋势逐渐减小,但其集中趋势并没有受到明显影响,且不同的分布集中于

7、不同的位置。表明D值可以看做分布差异的一种量化指标。另外,从图中可以看到β(2,0.5)和β(0.5,2)两个分布的数据基本重合。(2)样本含量对图心差异的影响图心差异采用图心之间的距离表示,数值模拟过程同前。样本含量对图心之间距离的影响和对统计量D的影响相似。即随着样本含量的增加,图心距离的离散趋势逐渐减小,但集中趋势并没有受到明显影响,且不同的分布集中于不同的位置。表明图心距离也可以看做分布差异的一种量化指标。  2.不同样本含量下两指标能判别的最小差异(1)KS检验的统计量D  统计量D能判别的最小差异,与P值、样本含

8、量和集中趋势的抽样误差有关。本文采用两种方法来描述这些指标。第一种方法是使用均数、标准差及标准误(SEM)表示;另一种方法是使用中位数、中位绝对差(m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。