相似性度量在基因表达聚类分析中的应用研究

相似性度量在基因表达聚类分析中的应用研究

ID:18846686

大小:53.00 KB

页数:14页

时间:2018-09-25

相似性度量在基因表达聚类分析中的应用研究_第1页
相似性度量在基因表达聚类分析中的应用研究_第2页
相似性度量在基因表达聚类分析中的应用研究_第3页
相似性度量在基因表达聚类分析中的应用研究_第4页
相似性度量在基因表达聚类分析中的应用研究_第5页
资源描述:

《相似性度量在基因表达聚类分析中的应用研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、相似性度量在基因表达聚类分析中的应用研究摘要:聚类分析是基因表达数据分析研究的主要技术之一,其算法的基本出发点在于根据对象间相似度将对象划分为不同的类,选择适当的相似性度量准则是获得有效聚类结果的关键。采用预处理过的基因数据集在不同相似性度量准则下进行的不同聚类算法的聚类分析,并得到聚类结果评价。其中算法本身的缺陷及距离相似性度量的局限性都是影响结果评价的因素,为了获得更有效的聚类结果,改进相关聚类算法并提出了一种比例相似性度量准则。关键词:dna微阵列;聚类分析;相似性度量;基因表达 dna微阵列(dnamicroarray)

2、技术的日益成熟导致了基因表达数据不断扩大,尤其在近十几年内更以指数形式增长。如何分析和处理大量的基因表达数据,从中提取有用的生物学或医学信息,已成为后基因组时代研究的瓶颈[12]。由于基因芯片产生巨量的表达谱数据,数据挖掘技术已经被广泛的应用到基因表达谱的许多方面,并取得成功。聚类分析是基因表达数据分析研究的主要技术之一[23],并且作为一种有效的数据分析工具,已广泛地应用于图像处理、信息检索、数据挖掘等领域。目前,作为研究基因表达数据的主要技术之一的聚类分析算法有很多种,如分层聚类(hierarchicalclusteri

3、ng),k均值聚类(k_meansclustering),自组织映射(selforganizingmaps,soms),主成分分析(principalcomponentanalysis,pca)等等。但由于不同聚类算法,甚至同一聚类算法使用不同参数,一般都会产生不同的聚类结果。因此,在对数据处理过的基因表达矩阵聚类分析时,选择合适的聚类相似性准则至关重要,同时也是获得合理、精确的聚类结果的关键。1dna微阵列dna微阵列(dnamicroarray),也叫基因芯片。它将几十个到上百万个不等的称之为探针的核苷酸序列固定在微小的(

4、约1cm2)玻璃或硅片等固体基片或膜上,该固定有探针的基片就称之为dna微阵列。1.1基因表达数据的获得和表示在不同的实验环境条件或是不同的时间点,通过对基因芯片的扫描,可以得到不同的实验数据,所以这些数据是基因在一定实验条件下或一段时间内的表达情况。经过对这些数据表达进行预处理和标准化后,产生得到的微阵列数据也就是基因表达数据。微阵列基因表达数据主要为数值型,并以矩阵的方式存储,“行”为各个基因在不同环境条件下或不同时间点的表达情况,“列”是同一环境或时间下一个样本所有基因的表达谱。每一个元素代表第i个基因在第j个样本中的表达

5、水平。1.2基因数据的研究现状与已经发展了几十年的结构基因组学相比,基因表达谱的生物信息学仅处于起步阶段。现阶段基因芯片所遇到的挑战并不在于表达芯片实验技术本身,而是发展实验设计方法及数据分析[4]。实验数据的预处理、标准化的方式,度量相似性的方式以及所选择的聚类方法都会对分析结果产生影响。面对海量的基因数据,聚类算法也不只是拘泥于传统的k均值算法,层次聚类算法上,而是向着多元化、专门化、复杂化的方向发展。2聚类相似性研究在日常生活中进行识别时也总是利用相似性概念,但是人们又很难对“相似”或“不相似”做出明确的定量表述,因此通

6、常所说的相似性只具有定性的或不确定的性质。怎样对相似性概念给以明确的定量表述是模式识别工作者要解决的任务之一。2.1相似性度量两个样本间的相似性或离散度的测量称为相似性度量,简称相似度。聚类通常按照样本间的相似性进行分组,因此如何描述对象间相似性是聚类分析的一个重要问题。聚类分析按照样本之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本之间的亲疏远近程度主要有以下2类函数:(1)距离函数。可以把每个样本看作高维空间中的一个点,进而使用某种距离来表示样本之间的相似性,距离较近的样本性质较相似

7、,距离较远的样本则差异较大。(2)相似系数函数。两个样本愈相似,则相似系数值愈接近1;样本愈不相似,则相似系数值愈接近0。这样就可以使用相似系数值来刻画样本性质的相似性。d(i,j)是样本i和样本j之间相似性的量化表示,通常它是一个非负的数值,一般地,距离函数有如下数学要求:(1)d(i,j)≥0:距离是一个非负的数值;(2)d(i,i)=0:一个对象与自身的距离是0;(3)d(i,j)=d(j,i):距离函数具有对称性;(4)d(i,j)≤d(j,h)+d(h,i):从对象i到对象j的直接距离不会大于途经任何其他对象h的距离(

8、三角不等式)。如何选择相似性的度量方法是一个相当复杂的问题,因为相似度的选择可以在很大程度上影响聚类算法的输出[5]。目前,有很多相似性度量应用到基因表达数据分析当中。例如:欧式距离、曼哈坦距离、pearson相关系数、无中心pearson相关系数(对应两个数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。