关联规则挖掘算法的研究及优化

关联规则挖掘算法的研究及优化

ID:13528319

大小:778.35 KB

页数:46页

时间:2018-07-23

关联规则挖掘算法的研究及优化_第1页
关联规则挖掘算法的研究及优化_第2页
关联规则挖掘算法的研究及优化_第3页
关联规则挖掘算法的研究及优化_第4页
关联规则挖掘算法的研究及优化_第5页
资源描述:

《关联规则挖掘算法的研究及优化》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、安徽大学硕士学位论文关联规则挖掘算法的研究及优化姓名:杨金凤申请学位级别:硕士专业:计算机软件与理论指导教师:刘锋2010-04摘要摘要为适应信息处理的新需求,数据挖掘作为一种新的信息分析技术已经在当前的数据仓库环境中进入了实用阶段。数据挖掘,也称为数据库中的知识发现,是从大量的、有噪声的、不完全的、模糊的、随机的数据中,提取人们事先不知道的、隐含在其中的、但又是潜在有用的知识和信息的过程,其主要目的是从海量的数据中挖掘出对用户有价值的知识。关联规则的挖掘是数据挖掘领域中一个非常重要的研究方向。一般来说,关联规则的挖掘分为两步:(1)无遗漏的找出所有频繁项集:这些频繁

2、项集的每一个出现的次数至少与预定义的最小支持度计数min_support一样;(2)由频繁项集生成强关联规则:这些规则必须满足最小置信度和最小支持度。关联规则的挖掘算法性能主要是由第1步决定的。本文在对经典的关联规则挖掘算法Apriori算法研究的基础上,对算法的优缺点进行了分析,针对Apriori算法的第一步连接步中生成的很多候选项集并不是频繁项集,为了这些项集花费了大量的系统开销之一缺点,本文提出了一种改进算法DDApriori算法,对Apriori中的剪枝步骤进行了改进,通过该方法,可以有效地减少大量无用项集和减少判断项集子集是否是频繁项集的次数。实验结果表明,

3、优化后的算法有更好的效率。关键词:关联规则Apriori算法候选项集I频繁项集关联规则挖掘算法的研究及优化AbstractInordertoadaptthenewdemandsofinformationprocessing,datamininghasenteredanewpracticalphaseinthecurrentdatawarehouseasanewinformationanalysistechnology.Datamining,alsoknownasknowledgediscoveryindatabases,isaprocessthatknowledg

4、eandinformationofpeopledonotknowinadvanceandcoveredinlargedatabutpotentiallyuseful,ispickedupfromlarge,noisy,incomplete,ambiguous,randomdata,themainpurposeofwhichistodiscovervaluableknowledgefromvastamountsofdataforusers.Miningassociationrulesisaveryimportantresearchdirectionofdataminin

5、g.Generallyspeaking,theassociationruleminingcanbedividedintotwosteps:(1)findallfrequentitemsetswithoutomission:countsallofthefrequentitemsetsappearedindatabasemustgreaterthanorequaltoapredefinedminimumsupport;(2)thestrongassociationrulesgeneratedfromfrequentitemsets:alloftheserulesmustm

6、eetthepredefinedminimumconfidenceandthepredefinedminimumsupport.Performanceofassociationruleminingalgorithmsmainlydecidedbythefirststep.Inthispaper,onthebasisofresearchAprioriAlgorithmwhichistheclassicalalgorithmofassociationrulesmining,analysestheadvantagesanddisadvantagesofthealgorith

7、m.ToponderoverthefirststepoftheApriorialgorithmgeneratealotofcandidateitemsetswhicharenotfrequentitemsets,andalloftheseitemsetscostalotofsystemspending.ThispaperpresentsanimprovedalgorithmDDApriorialgorithmtoimprovethetheAprioripruningsteps.Usingthismethod,thelargenumberofusele

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。