第6章 聚类分析ppt课件.ppt

第6章 聚类分析ppt课件.ppt

ID:59209397

大小:405.50 KB

页数:35页

时间:2020-09-26

第6章 聚类分析ppt课件.ppt_第1页
第6章 聚类分析ppt课件.ppt_第2页
第6章 聚类分析ppt课件.ppt_第3页
第6章 聚类分析ppt课件.ppt_第4页
第6章 聚类分析ppt课件.ppt_第5页
资源描述:

《第6章 聚类分析ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章聚类分析本章学习目标掌握地球科学中大量观测数据的样品或变量的数学定量分类思想;学会样品或变量数据变换和分类标准的数学表示;数据的聚类:谱系图制作及其地质意义;学习重点、难点重点不同应用目的聚类分析技术的正确选取和聚类分析矩阵的求法以及谱系图的地质意义难点实际观测数据的聚类分析矩阵的构建和程序开发,深入理解谱系图的地质意义l课时安排5学时,课外完成习题l学习方法讲授与课堂讨论l背景知识相关的专业知识线性代数数理统计问题的提出地球科学涉及众多的分类问题,如地质学研究中岩石的分类、矿物矿床的分类、古生物的分类。油气勘探、开发过程中,石油成因研究、油藏类型研究、地

2、化资料等的分类与分级。针对上述问题,怎样进行科学分类,分类结果有何启示?第一节聚类分析的思想假设所研究的对象中的元素,存在着不同程度的相似性(亲疏关系)根据其各观测指。标,找出一些能够度量样品之间相似程度的统计量,据此,把一些相似程度大的样品聚为一类,即关系密切的聚合到一个小的分类单位,疏远的聚合到一个大的分类单位,直到把所有样品都聚合完毕,形成一个由小到大的分类系统,最后把分类系统直观地用图形表示出来。1.对象分类根据分类对象的不同,聚类分析分为二种一种是对指标(即变量)进行分类,。叫做R型聚类分析,另一种是对样品进行分类,叫做Q型聚类分析。2.方法分类从聚类

3、所采用的方法上看,又有聚合法、分裂法、图论法等。第二节数据变换与分类尺度(标准)一、数据变换设有n个样品,每个样品测量了k项因素(变量),得出的数据矩阵:1.正规化变换就是对任何一个测量因素,把n个样品的值化为[0,1]之间的数据。变换公式:zij=(xij-mj)/dj(i=1,2,…,n;j=1,2,…,k)其中经过上述变换得到与测量单位无关,且所有数据都在[0,1]之间的正规化矩阵:2.数据标准化就是指把每一因素(变量)化为均值为0,方差为1的标准化变量具体对(6-1)式,即。是每一列的均值为0,方差为1。变换公式:二、分类标准考察原始观测数据矩阵的元素考

4、查1.样品(或变量)距离:(1)如果把n个样品的k个指标(变量)看成k维空间的n个样品点,则样品间的亲疏程度可用它们相互间的欧氏距离来衡量第i个样。品与第j个样品间的距离为:为使所求距离在某一确定范围变化,常采用以下公式:(2).如果对指标(变量)的聚类,则把n个样品的k个指标看成是n维空间k个点,仿此,得到第i个变量与第j个变量间的距离为:Dij或(Dij*)的值越小,表示二样品点相似程度越大它是一个n阶对称矩阵,即dij=dji,。dii=0,或Dij*=dji*,dii*=0。2.相似系数给定原始数据矩阵,把每个样品看成k维空间中的一个向量,此时第i个样品

5、向量[xi1,xi2,…,xik]与第j个向量[xj1,xj2,…,xjk]之间的夹角余弦cosθij称为此二样品的相似系数,即由于-1≤cosθij≤1,其值越接近于1,说明二样品的相似程度越高求出两两样品的相。似系数,得到相似系数矩阵:它是一个n阶实对称矩阵,其主对角元素为1。仿此作法,把每一个指标(变量)看成是n维空间的向量,可得二变量之间的相似系数:求出两两变量之间的相似矩阵:3.相关系数相关系数是变量之间线性相关程度的一个量度,常用作变量间相似程度的度量,第i个变量与第j个变量的相关系数为:可得变量间相关系数矩阵:它是一个主对角元为1的k阶实对称矩阵,

6、其中-1≤rij≤1,其值越接近于1,说明i,j两个变量线性相关性越强。第三节谱系图的形成计算出相似统计量后,就可以它为依据对样品(或变量)进行聚类,最后形成谱系图。如下图所示。聚合归类时,一般遵循下面四项原则:若选出一对样品在已经分好的组中都未出现过,则把它们形成一个独立的新组。若选出的一对样品中,有一个出现在已经分好的组里,把另一个样品也加入到该组。若选出两个样品,它们分别出现在已经分好的两个组中,则把这两个组联在一起。若选出的一对样品都出现在同一组中,则这对样品就不再分组了反复进行,直到聚。合分类完毕为止。第四节应用实例一、一次形成法河北某铜钼矿含矿岩石、

7、围岩主要化学成分与有用金属分析结果如表6-1,对因素进行R型群分析,求出相似系数矩阵?作成谱系图如下:二、逐步形成法实例南海地区取得干酪根样品6个,每个样品测了6项指标,分别是:类脂体、壳质体、镜质体,惰质体的百分含量,H/C原子比和O+S/C原子比原始数据如下:求出相似系数矩阵:1.第一步(1)找出并记下Θ中的最大值为q45=0.979,划去第五行和第五列;(2)用第五和第四两个样品指标的平均值来代替样品4的指标,记为x4',即x4'=(x4+x5)/2=(42.5,15,40,2.5,10.05,3.11)(3)重新计算x4'与其它样品(除x5外)间的相似系

8、数,用来替换Θ中的第四行

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。