一种基于熵的连续属性离散化算法_贺跃

一种基于熵的连续属性离散化算法_贺跃

ID:33580849

大小:143.66 KB

页数:3页

时间:2019-02-27

一种基于熵的连续属性离散化算法_贺跃_第1页
一种基于熵的连续属性离散化算法_贺跃_第2页
一种基于熵的连续属性离散化算法_贺跃_第3页
资源描述:

《一种基于熵的连续属性离散化算法_贺跃》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第25卷第3期计算机应用Vo.l25No.32005年3月ComputerApplicationsMar.2005文章编号:1001-9081(2005)03-0637-02一种基于熵的连续属性离散化算法121贺跃,郑建军,朱蕾(1.北京理工大学信息科学技术学院,北京100081;2.北京理工大学管理与经济学院,北京100081)(zjj76983@bi.tedu.cn)摘要:连续属性离散化的关键在于合理确定离散化划分点的个数和位置。为了提高无监督离散化的效率,给出一种基于熵的连续属性离散化方法。该方法利用连续属性的信息量(熵)的特性,通过对连

2、续属性变量的自身划分,最小化信息熵的减少和区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以便得到优化的离散值。实验表明该算法是行之有效的。关键词:熵;连续属性;离散化;分类中图分类号:TP311.13文献标识码:AAnentropy-basedalgorithmfordiscretizationofcontinuousvariables121HEYue牞ZHENGJian-jun牞ZHULei牗1.SchoolofInformationScienceandTechnology牞BeijingInstituteofTechnology牞Be

3、ijing100081牞China牷2.SchoolofManagementandEconomics牞BeijingInstituteofTechnology牞Beijing100081牞China牘Abstract牶Itisveryimportanttoascertainrationallythenumberandpositionsofsplitpointsfordiscretizationofcontinuousvariables.Toimprovetheefficiencyofunsuperviseddiscretization牞anen

4、tropy-basedalgorithmwasproposedfordiscretizationofcontinuousvariables.Itmadeuseofthecharacteristicsoftheinformationcontent牗entropy牘ofacontinuousvariable牞andpartitionedthecontinuousvariablebyitselfforminimizingboththelossofentropyandthenumberofpartitions牞inordertofindthebestb

5、alancebetweentheinformationlossandalownumberofpartitions牞sothenobtainedanoptimaldiscretizationresul.tTheexperimentsshowthisapproacheffective.Keywords牶entropy牷continuousvariable牷discretization牷classification连续属性的离散化是数据挖掘和机器学习的重要预处理为了提高无监督离散化的效率,给出一种基于熵的连续步骤,直接关系到学习的效果。属性离散化方法

6、,该方法利用连续属性的信息量(熵)的特在分类算法中,对训练样本集进行离散化预处理,具有双性,通过对连续属性变量的自身划分,最小化信息熵的减少和重意义。一方面,可以有效降低学习算法的复杂度,加快学习区间数,并寻求熵的损失与适度的区间数之间的最佳平衡,以速度,甚至提高学习分/类精度;另一方面,还可以简化、归纳便得到优化的离散值。实验表明了该方法的有效性。获得的知识,提高分类结果的可理解性。正因为如此,离散化[1]1连续属性的熵特性问题得到了较为广泛和深入的研究。根据是否利用类信息,连续属性的离散化方法可以分为连续属性离散化的直观含义是:首先为被离散

7、的连续属有监督和无监督两种。与有监督离散化不同,无监督离散化性选定离散值数目,寻找一些划分点把连续属性的连续取值可以处理不存在类别属性的数据集。范围划分成一些子区间,每个子区间对应于一个离散值,这样等宽和等频区间法是常见的无监督离散化算法,虽然都就可以用一些离散的取值点来表示这个连续属性的整个取值易于实现,但因为忽视了样本分布信息,因而难以将区间边界范围。设置在最合适的位置上,从而使得它们的性能在大多数情况对于数据库中任意一个连续属性,将它的取值范围划分[2]下无法令人满意。为若干区间,每个区间至少包含一个样本。m个样本至多分鉴于无监督离散化与

8、数据聚类在目标上的近似,无监督成m个区间(O(m))。这样,可将连续属性变量转换成具有离散化过程中也常采用K-means等聚类分析算法。但对于连O(m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。