属性约简方法概述

属性约简方法概述

ID:10273453

大小:82.41 KB

页数:4页

时间:2018-06-14

属性约简方法概述_第1页
属性约简方法概述_第2页
属性约简方法概述_第3页
属性约简方法概述_第4页
资源描述:

《属性约简方法概述》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、属性约简方法概述属性约简又称维规约或特征选择,从数学的角度考虑,就是有p维数据x=(x1,x2……xp),通过某种方法,得到新的数据x’=(x’1,x’2……x’k),k≤p,新的数据在某种评判标准下,最大限度地保留原始数据的特征。属性约简主要是为了解决高维数据计算的复杂性和准确性问题。目标是消除冗余和不相关属性对计算过程和最终结果造成的影响。对数据进行属性约简的意义,主要从以下几个方面考虑:a)从机器学习的角度来看,通过属性约简去除噪音属性是非常有意义的;b)对一些学习算法来说,训练或分类时间随着数据维数的增加而增加,经过属性约简可以降低计算复杂度,减少计算时间;c)假如不进行属性约简,噪音

2、或不相关属性和期望属性对分类的作用一样,就会对最终结果产生负面影响;d)当用较多的特征来描述数据时,数据均值表现得更加相似,难以区分。为了描述属性约简方法,这里假设数据集合为D,D={x1,x2….xn},xi表示D中第i个实例,1≤i≤n,n为总的实例个数。每个实例包含p个属性{

3、xi

4、=p}。从机器学习的角度来看,属性约简方法可以分为监督的和非监督的两类。下面是几种常用的方法。(1)PCA主成分分析主成分概念是Karlparson于1901年最先引进。1933年,Hotelling把它推广到随机变量。主成分分析把高维空间的问题转换到低维空间来处理,有效的降低了计算的复杂度。通过主成分的提取

5、,降低了部分冗余属性的影响,提高了计算的精度。主成分分析的基本思想为:借助一个正交变换,将分量相关的原随机变量转换成分量不相关的新变量。从代数角度,即将原变量的协方差阵转换成对角阵;从几何角度,将原变量系统变换成新的正交系统,使之指向样本点散布最开的正交方向,进而对多维变量系统进行降维处理[43]。定义4-1[44]:设为p维随机向量,它的第i主成分分量可表示,i=1,2,…,p。其中是正交阵U的第i列向量。并且满足:是的线性组合中方差最大者;是与不相关的的线性组合中方差最大。(k=2,3,…p)。定义4-2[45]:设是随机向量的协方差矩阵,其特征值-特征向量对,其中。则第i个主成分为:i=

6、1,2,…p………………….式(4-1)且i=1,2,…p;。定义4-3[45]:设随机向量有协方差矩阵,其特征值-特征向量对,其中,是主成分,则………….式(4-2)定义4-3说明主成分向量的协方差阵为对角矩阵。总体信息量可以用特征值来衡量,相应的特征值反映的是对应主成分的信息量。进而可以计算每个主成分的贡献率。定义4-4[44]:记为第k主成分的贡献率,为前k个主成分的累积贡献率。主成分分析经常用于减少数据集的维数,同时保持数据集的对方差贡献最大的特征。这是通过保留低阶主成分,忽略高阶主成分做到的。主成分描述了数据的可变性,通过它可以模拟原始数据。主成分分析作为最重要的多元统计方法之一,在

7、经济社会、企业管理、工业控制、模式识别等各领域有极其广泛的应用。(2)监督条件下的维规约方法(Chi-Square检测,信息增益,增益率)监督的维规约方法主要用来辨别属性值预测类标识的能力。设考察的属性为V,V有p个取值V={V1,V2……Vp},数据集有z个类,用C={C1,C2……Cz}表示。nri是指当属性V的值为Vr时,类为Ci的个数,uri是指当数据为均匀分布此属性值时期望的类的数目,1≤r≤p,1≤i≤z。属性V的取值分布见表4-1。表4-1属性V取值分布表Table4-1ValueDistributionTableofAttributeV类标识属性值C1……Ci……Cz个数V1…

8、…Vr(1≤r≤p)……Vpn11(u11)……nr1(ur1)……np1(up1)…………………………n1i(u1i)……nri(uri)……npi(upi)…………………………n1z(u1z)……nrz(urz)……npz(upz)n1……nr……npn’1……n’i……n’zna)Chi-Square检测卡方检验是一种假设检验方法,它在分类资料统计推断中的应用,包括:两个概率或两个构成比比较的卡方检验;多个概率或多个构成比比较的卡方检验以及分类资料的相关分析等,它引入了一个服从卡方分布的评分准则。在数据集合D上,特征f和类c的相关性评分公式如下:……………………………式(4-3)从本质上

9、来看,卡方分布是对数据集的实际属性值类别数目与期望中的属性和类无关时的类别数目差别的评分。b)信息增益(IG)息增益(informationgain)是指期望信息或者信息熵的有效减少量。从数据分类的角度看,根据它能够确定在什么样的层次上选择什么样的变量来分类。信息增益度量了某个特征给训练集带来的信息量大小。它定义为用特征f划分数据集D引起熵的约简。如公式4-4和公式4-5所示。…………………………

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。