改进的K-均值算法在岩相识别中的应用

改进的K-均值算法在岩相识别中的应用

ID:37494200

大小:224.84 KB

页数:7页

时间:2019-05-24

改进的K-均值算法在岩相识别中的应用_第1页
改进的K-均值算法在岩相识别中的应用_第2页
改进的K-均值算法在岩相识别中的应用_第3页
改进的K-均值算法在岩相识别中的应用_第4页
改进的K-均值算法在岩相识别中的应用_第5页
资源描述:

《改进的K-均值算法在岩相识别中的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、改进的K-均值算法在岩相识别中的应用荆丰伟,刘冀伟,王淑盛北京科技大学信息工程学院,北京100083摘要:K-均值算法是一种基于样本间相似性度量的间接聚类方法。本文研究和探索K-均值方法在岩相识别中的应用。在求样本间的距离时,采用马氏(Mahalanobis)距离代替欧氏距离。关键词:岩相识别;测井资料;K-均值中图分类号:TP391ApplicationofModifiedK-meansclusteringalgorithmtoLithofaciesIdentificationJingFengwei

2、,LiuJiwei,WangShushengSchoolofInformationEngineering,UniversityScienceandTechnologyBeijing,Beijing100083ABSTRACTTheK-meansclusteringalgorithmistheindirectclusteringalgorithmbaseduponcomparabilitymeasurementbetweenpoints.Thispaperstudiesandexplorestheapp

3、licationofK-meansclusteringalgorithmtolithofaciesidentification.MahalanobisdistancereplacesEuclideandistanceasthedistanceofpoints.KEYWORDSlithofaciesidentification,logging,k-meansclustering0引言钻孔中的测井资料是地层多种物理参数的井中测量结果,从多个侧面反映了地层的特征。与取芯等资料相比,测井资料具有大量、连续及原

4、位测量的特点。因此测井资料的地质解释是测井过程中十分重要的环节,利用测井资料,开发一种快速、高效的岩相自动识别方法具有十分重要的意义。K-均值方法是一种基于样本间相似性度量的间接聚类方法,属于非监督学习方法。其原(p)(1)(2)(p)理是首先初始化中心Ci,然后将输入样本X按最近邻规则分组,即将{XX,…,X}分配给中心为Ci(i=1,2,…,K)的输入样本聚类集合Si(i=1,2,…,K)。要求满足:(p)d=minx−ci=1,2,…,Kj=1,2,…,Niii然后,根据样本Si的平均值调整中心

5、Ci。重复以上步骤,直到中心的分布不再变化。传统的K-均值方法在求样本间的距离时采用的是欧氏距离,这样会带来很多问题,本文用马氏(Mahalanobis)距离来计算样本间的距离,在理论和实际上都取得了很好的效果。1多元分析中的距离定义测井资料的多种物理参数需要采用多元分析的方法来解释,在多元分析中有许多定义距离的方法:p绝对值距离:dij(1)=∑xik−xjk(1)k=11p2⎡2⎤欧氏距离:dij(2)=⎢∑()xik−xjk⎥(2)⎣k=1⎦1pq⎡q⎤闵氏距离:dij(q)=⎢∑()xik−x

6、jk⎥(3)⎣k=1⎦国家十五攻关项目(2001BA605A-08-05)切比雪夫距离:d(∞)=maxx−x(4)ijikjk1≤k≤p上述几何意义上的空间距离在多元分析中有以下缺点:1.它们都与量纲有关。在一个多维空间中,随坐标轴单位的变化,两点之间的距离大小有不同的结果,这是由于单位大小使该坐标在距离中所起的作用产生了变化。2.可加性问题。在不同单位情况下求和,意义是不明确的。3.没有考虑变量(参数)之间的相关程度。前面两个缺点都可以用标准化的方法加以克服,但在“标准化空间”求距离时,不考虑变量

7、(参数)的相关情况,将使距离的含义也变得不甚明确。正因为如此,我们采用下面的马氏(Mahalanobis)距离:2'−1d(M)=(x−x)s(x−x)(5)ijijij这里S为样本协差阵。它的定义如下:⎡s11s12Λs1p⎤⎢⎥ssΛs⎢21222p⎥S=(6)⎢ΜΜΜ⎥⎢⎥⎢⎣sp1sp1Λspp⎥⎦N12S=(x−x),即第j个变量的方差,是偏差平方和的(N-1)分之一;jj∑tjjN−1t=1NSjk=∑(xtj−xj)•(xtk−xk)/(N−1),是第j个变量和第k个变量的协方差;t=1

8、Nxj=∑xij/N,j=1,2,Λ,p,是第j个变量的均值。t=1马氏距离既考虑了变量之间的相关,而且具有一般对距离要求的四条性质,即:a.dij=0,i、j两个点合为一;b.Dij≥0,对一切i、j均有非负性;c.dij=dji,对一切i、j均有对称性;d.dij≤dik+dkj对一切i、j、k均有三角不等式。2K-均值方法:本文用马氏(Mahalanobis)距离代替欧氏距离来计算样本间的距离,K-均值方法基本步骤如下:步骤1初始化:设置类别数K。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。