第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc

第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc

ID:62167362

大小:300.50 KB

页数:8页

时间:2021-04-20

第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc_第1页
第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc_第2页
第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc_第3页
第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc_第4页
第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc_第5页
资源描述:

《第十二章非参数判别分析与非参数聚类(非参数统计西南财大).doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十二章非参数判别分析与非参数聚类第一节非参数判别分析一、引言关于判别分析的一般概念我们在多元统计分析中已经详细的讨论,在那里我们采用了距离判别、贝叶斯判别和典型判别法。这些判别法都需要估计总体的参数,而贝叶斯判别时,我们还指定了总体服从正态分布。在非参数统计中,不对变量的分布做任何假设,这里主要有两种方法,BAYES方法和近邻方法进行非参数判别分析。设有M个类,用Y记一具体的对象所属的类,Y可能的取值为.设有了n个经过明确判定的样本,第i个样本的指标为,所属的类为,n个样本记,常称为“训练样本”。这一名称的

2、来由使因为日后进行的判别工作依赖,因此可以说它们“训练了”人们如何取进行判别。非参数方法是基于组概率密度函数的非参数估计.每组的非参数密度估计核产生的分类准则采用核方法或k最近邻方法。马氏距离或欧氏距离用来确定样品的接近程度。二、核方法1、Bayes方法概念设有M个总体分别具有概率分布密度,出现M个总体的先验概率分别为,,。贝叶斯判别的规则将样品判给最大的类,即如果,判2、Bayes方法和密度函数估计的联系在非参数判别中,通常完全未知,有时未知。一个直观的想法是直接估计和,然后将得到的估计代入判别规则中进行计

3、算。具体的步骤是:如果已知某事物可分为M个总体:…,,该事物的特性P个指标描述,在进行分析之前,已观察到在各个总体的样本.,…,…,为维密度函数,为窗宽,总体密度函数的一个核估计可以表示为:其中,将估计出的先验概率和密度函数代入判别规则中,得到后验概率,进行比较。使用该估计需要一个前提,即全部训练样本是从大的总体中随机抽样取得的,否则便没有意义了。现设当时,X的条件分布有概率密度函数,,则的边缘分布为。已知时,的条件概率为判别规则为,判,判三、K近邻方法1、概念记样本,要由样品指标x去判别其所属的类Y,Y可能

4、的取值为。将按其与X的距离排列,如,距离相等时,按足标小的在前的原则处理.指定一个介于1到n之间的自然数k,挑出最接近X的k个,即,与他们匹配的Y是。定义:以记为中等于的个数。定义判别函数如下:若是中的唯一最大者,则定义;若中有若干个同时达到最大者,比方说是,则再按等概率在中确定一个为。2、近邻方法与概率密度的最近邻估计的关系用近邻方法估计估计密度函数的方法是,先固定一个介于1到n之间的自然数,对任何,计算,然后的密度函数估计和先验概率的估计为:判别规则为:,判,等价的判别函数,则判四、SAS/DISCRIM

5、过程中的非参数判别的选项非参数判别方法是基于组概率密度的非参数估计。每组的非参数密度估计和产生的分类准则采用核方法和K最近邻方法得到.马氏和欧氏距离能够用来确定接近的程度.采用k最近邻方法时,马氏距离基于合并协方差阵;采用核方法时,马氏距离基于单个组那方差矩阵或合并协方差阵。实际上某个检验样品的归类基于由训练集得到的估计组密度。从估计密度,x术语各组的喉炎概率得到评估。观测x盼归第t组是因为p(t/x)最大。METHOD=NPAR-—采用非参数判别方法。-—为最近邻方法指定一个值。观测x分如一个组基于从x的k

6、个最劲力得到的信息.——为核密度估计指定一个半径r。注意,不能同时选用K=选项与R=选项。KERNEL=BIWEIGHTBIW或EPANECHNIKOVEPA或TRIWEIGHTTRI或UNIFORMUNI-—为估计组密度指定一个核密度,缺省为KERNEL=UNIFORMUNI。METRIC=DIAGONAL

7、FULL|IDENTITY——为平方距离的计算指定度量.缺省为METRIC=FULL。第二节非参数聚类分析非参数聚类过程利用某种基于非参数密度估计的算法对观测得到的数据进行分类。Sas的mod

8、eclus模块产生的数据集包括密度估计和聚类的结果,一系列的统计量,其中包括近似的p值,以及用不同的算法,不同的光滑参数和不同的显著性水平得到的结果。我们知道,密度最大的数是众数,及mode。非参数聚类方法,类是由概率密度函数的众数定义的,一个类大致可以定义为概率密度函数的一个局部最大点附近的区域.给定一个足够大的样本,非参数分析方法可以不同大小,不同分散程度和形状极不规则的类。非参数聚类分析方法对找出具有相同大小和分散程度的类效果也好。一、问题的引入如下虚构的数据进行分类dataa;inoutxy@@;ca

9、rds;181820222120122317122325252016272013282280207519772381265521642472267035753078421852275741614864597269728080315351697281;optionps=35ls=78;procplot;ploty*x/hpos=52vaxis=0to80by20;run;从散点图上看有三类,其中,左下

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。