数据挖掘中属性选择算法的分析与研究

数据挖掘中属性选择算法的分析与研究

ID:36681316

大小:4.53 MB

页数:80页

时间:2019-05-13

数据挖掘中属性选择算法的分析与研究_第1页
数据挖掘中属性选择算法的分析与研究_第2页
数据挖掘中属性选择算法的分析与研究_第3页
数据挖掘中属性选择算法的分析与研究_第4页
数据挖掘中属性选择算法的分析与研究_第5页
资源描述:

《数据挖掘中属性选择算法的分析与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、北京交通大学硕士学位论文数据挖掘中属性选择算法的分析与研究姓名:郭维维申请学位级别:硕士专业:计算机应用技术指导教师:王志海20081201摘要数据挖掘技术提供了海量数据分析的一种有效方法。目前,数据挖掘在零售,军事,商业智能,金融等众多领域都得到了广泛的应用。通常数据挖掘算法对数据的质量都有较高的要求,如冗余度小,相关程度高,噪音低等。但是实际中产生的业务数据往往不具有这些特点,因此对数据挖掘的数据进行预处理就成为一项重要的任务。属性选择就是对数据挖掘中的数据进行预处理的一个很重要的步骤。一个好的属性选择方法可以有效地减少数据的冗余度和降低数据的维度,使

2、得数据挖掘算法在经过处理的数据集合上有更加良好的表现。本文首先介绍了数据挖掘的基本思想与处理步骤,在此基础上进一步阐述了属性选择对数据挖掘的重要意义,并针对属性选择的步骤和属性选择方法进行了详细的分析。同时,结合数据挖掘研究平台Weka,分析了属性选择算法的设计与实现,深入剖析了属性选择算法的运行过程。进而,实现了一种基于信息增益和遗传算法结合的属性选择方法,并通过大量的实验分析,论述了这种方法存在的问题。最后,提出了一种基于最小描述长度和遗传算法结合的属性选择方法,这种方法采用最小描述长度作为对属性集合进行评价,使用遗传算法作为对属性集合的空间进行搜索,

3、对于搜索过程中的每个属性集合都使用最小描述长度标准进行评价,确定这个属性集合是否可以继续保留在搜索过程中。该方法保留了遗传算法的鲁棒性和高效性,不仅可以在较短的时间内发现属性子集,而且利用最小描述长度作为评价标准选择出来的属性子集在用于分类时可以达到更好的分类效果。大量的实验同时表明这种方法在绝大部分数据集上都有良好的性能,并且其平均错误率优于Weka平台上已实现的那种基于遗传算法的属性选择方法。关键词:数据挖掘:属性选择;最小描述长度;遗传算法分类号:TP301.6本文得到国家自然科学基金项目资助(基金项目编号:60673089)VABSlRACTABS

4、TRACTDataminingtechniqueshavebeenprovidinganeffectiveandefficientmethodfordataanalysis,whichhavebeenwidelyusedinretailing,militaryoperation,businessintelligence,financeandmanyotherdomains.Thealgorithmsindataminingusuallyrequiremuchmorequalifieddata,suchassmallredundancy,highcorrel

5、ation,andlownoise.However,realworlddataoftendonotmeetthesecharacteristics,datapre..processingsinadvancehavebeenbecomingoneofimportanttasksindatamining.Attributeselectionshouldbeakeystepindatapre—processings.Anybetterattributeselectionmethodcouldreducedataredundancyanddimensionsofd

6、ataeffectivelyandefficiently,makingdataminingalgorithmsmoreeffectiveonthedatawhathavebeenpre—processed.ThisthesisfirstintroducedthebaSicideaSofdatamininganditsprocessingsteps,thendemonstratedtheimportanceonattributeselectionfordatamining,andoutlinedmainstepsandmethodsofattributese

7、lectionindetail.Meanwhile,itfocusedononeofdataminingresearchplatforms—Weka,mainlyontheanalysisofdesignandimplementationforattributeselectionalgorithms,andadetailanalysisofattributeselectionoperations.Then,anattributeselectionmethodbasedoninformationgainandgeneticalgorithmispresent

8、ed.Discussionsonexperimentalresul

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。