高维数据挖掘中特征选择稳健方法

高维数据挖掘中特征选择稳健方法

ID:6054746

大小:30.50 KB

页数:8页

时间:2018-01-01

高维数据挖掘中特征选择稳健方法_第1页
高维数据挖掘中特征选择稳健方法_第2页
高维数据挖掘中特征选择稳健方法_第3页
高维数据挖掘中特征选择稳健方法_第4页
高维数据挖掘中特征选择稳健方法_第5页
资源描述:

《高维数据挖掘中特征选择稳健方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、高维数据挖掘中特征选择稳健方法  摘要:针对高维数据的特点,即数据中变量个数往往大于样本观测数目,并且数据往往具有异质性特点,基于众数回归分析和变量选择降维技术,提出了一种稳健有效的特征选择方法,利用局部二次逼近算法(LQA)和最大期望(EM)算法,给出估计算法和最优调节参数的选取方法。通过实验的模拟数据分析表明,所提出的特征提取选择方法整体优于基于最小二乘和中位数的正则化估计方法,特别当误差是非正态分布时,与已有方法相比具有较高的预测能力和稳健性。关键词:高维数据;特征选择;众数回归;自适应LASSO;最大期望算法中图分类号:

2、TP311文献标志码:A0引言为对实际问题中收集到的数据进行有效的特征选择(featureselection),尽可能地挖掘出数据中潜在的、有用的信息,需要对数据事先进行一些数据分析。数据分析的目的是从隐藏在一大批看来杂乱无章的数据中找出所研究对象的内在规律。8文献[1]提出,典型的数据分析包含以下步骤:1)探索性数据分析。对从实际问题中收集到的数据,通过作图(如直方图、箱线图和QQ图)、造表(如数据分类表和属性分析表)、用各种形式的曲线拟合(如线性曲线、非线性曲线等)或计算某些特征量等手段探索规律性的可能形式。2)选择恰当的模

3、型。提出一类或几类可能的统计模型或数学模型,通过进一步的分析从中挑选一定的模型,当然最终挑选哪一种模型需要综合各方面进行评价分析。3)统计推断分析。通常使用统计学方法对所选定的模型进行相关的统计推断(如参数估计、区间估计和假设检验等),根据推断的结果给出合理的解释和分析,进而实现从数据中提取出有用的信息。然而,从实际问题中收集得到的数据含有变量的个数远远大于数据的观测数目,称为高维数据(highdimensionaldata)。高维数据挖掘与传统的数据挖掘相比较最主要的特点在于它的维度(属性)通常可以达到成百上千维,甚至更高。8

4、许多高维数据的一个共同特征是具有变量的稀疏性(sparsity)。利用稀疏性特征,可以从成百上千维变量中有效地选择出真实的影响变量,从而达到特征选择的目的,这是进行高维数据挖掘需要解决的问题。对于高维数据常用做法是通过降维将数据从高维降到低维,然后用低维数据的处理办法进行处理。另一方面,高维数据具有“异质性”特点,即数据中含有异常值(outlier),数据中具有较大的噪声,即信噪比不高以及数据之间一般不独立具有较强的相关性,使得对高维数据进行有效的特征选择具有很大的挑战性。本文在探索性数据分析的基础上,利用统计学中的回归分析(r

5、egressionanalysis)方法提出高维数据特征选择的有效方法。该方法能克服已有方法的弱点,特别是在对异常点、异方差和相关性较强的数据进行特征提取时具有很好的稳健性,能有效地进行特征提取,真正挖掘出隐藏在数据内部的有用信息。1探索性数据分析1.1一维探索性数据分析在数据挖掘的一维探索性分析[1]中,均值(mean)、中位数(median)和众数(mode)是度量数据“中心”的三个最重要的数字特征。均值即为观测数据的平均值,由于均值具有理解直观、计算方便等特点,在实际中经常被使用;数据的中位数值是指将观测数据从小到大排序后

6、最中间的那个数即为数据的中位数;而数据的众数值是指数据中取值频率最高的那个值。8均值虽然简单直观,但它容易受样本数据中异常值的影响[2-3],其取值有时可能偏离数据主体,此时均值就不能反映出数据真实的特点。譬如,一个公司有100位员工,其中10位管理人员每人年薪100万,其余90人是普通员工每人年薪大约3万,公司在招聘新人时宣称员工的平均年薪为12.7万,显然该公司的平均年薪就不能很好反映员工工资的特点。但中位数和众数就不受少数异常值的影响,仍能通过数据反映事物本质的特征。相比而言,众数更能集中反映数据主体的取值特点,它反映了数

7、据中最有可能(mostlikely)的取值,因而能够提供更丰富的信息。1.2多维数据探索性分析为进一步探索数据中因变量(响应变量)与自变量(解释变量)之间的关系,即数据的多维数据探索性分析,回归分析是行之有效的方法之一。通过对数据进行预分析,建立恰当的回归模型,能将数据从高维降到低维。线性回归模型是最常用的数据挖掘模型,其目的就是用一个或多个自变量的变化去解释因变量的变化,通过检验模型、估计预测等环节找出自变量与因变量的关系,挖掘出实际问题中的有用信息,为进一步决策提供科学依据。另一方面,为了减小可能存在的模型误差,初始回归建模

8、时,往往会引入很多可能与之相关的变量。然后,为了提高模型的预测精度,增强模型的可解释性,就需要选择对因变量有显著影响的重要解释变量。因此,特征选择(或称变量选择)是数据进行有效数据挖掘的一个重要步骤。8在模拟中,每次生成两个样本数据集,即训练样本数据集和检验样本

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。