数据挖掘中关联规则的研究及应用

数据挖掘中关联规则的研究及应用

ID:36631720

大小:1.43 MB

页数:55页

时间:2019-05-13

数据挖掘中关联规则的研究及应用_第1页
数据挖掘中关联规则的研究及应用_第2页
数据挖掘中关联规则的研究及应用_第3页
数据挖掘中关联规则的研究及应用_第4页
数据挖掘中关联规则的研究及应用_第5页
资源描述:

《数据挖掘中关联规则的研究及应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉理工大学硕士学位论文数据挖掘中关联规则的研究及应用姓名:高伟峰申请学位级别:硕士专业:计算机应用技术指导教师:熊盛武20060401中文摘要数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐合在其中的、人们事先不知道的、但又是潜在有剧的信息和知识的过程,其主要目标是从大型的数据库中挖掘出对用户有价值的模式。在事务数据库中挖掘关联规则是数据挖掘领域中一个非常重要的研究课题。在关联规则挖掘过程中存在两个问题:一是产生大项目集;二是产生强关联规则。埘于这两个问题,算法的复杂性是瓶颈,凼为频繁集的数F1

2、和项目的数目成指数增长,所以导致在面对大规模的数据库时,整个算法的耗时巨大,从而最终导致挖掘算法在实际工程中的应用效果较差。本文提出一种从大型数据库中挖掘关联规则的改进算法。该算法以经典的Apriori算法为基础,在分析研究已有各种优化算法的基础上,提出了数据划分的方法,分两个阶段执行。第一阶段,扫描整个数据库,将其分成若干互不相交的予块,然后逐次调入内存,根据支持度在每个子块上的分配,对每个子块应用Apriori算法,以产生局部频繁项集,最后将每个子块的频繁项集合并作为第_阶段所用的全局候选项集;第二阶段,着眼于全

3、局频繁项集的搜索。根据每个伞局频繁项目集必在某个子块卜是频繁的这一性质,对第一阶段产生的全局候选项集应用ApriOFi算法,由此产生全局频繁项集。整个过程只需扫描数据库两次,大大减少了I/o操作时间,减少了产生的候选项集的数量。理论分析表明,改进后的Apriori算法的应用效率高,用程序实现了改进前后的算法,实验结果也表明改进后的算法效率更高,而且随着数据库规模的扩大,效率提高更加明显。本文还将研究成果应用到医疗信息系统,构建了一个季节流行病关系模型,以发掘出季节与人们所可能罹患的流行病的关系,并进一步地探讨了不同疾

4、病间潜在的可能联系,为人们对疾病的防治提供参考。最后,在总结令文的基础上,明确了F一步研究的日标和方向。关键词:数据挖掘、关联规则、Apriori算法、数据划分、关系模型AbstractDataminingistorevealtheimplicatedbutusefulinformationfrommassive,incomplete,noise,fuzzydataset.Itsessentialtargetistoextractvaluablepatternfromthelarge—scaledatabase.As

5、sociationruleminingisanimportantbranchofdataminingthathasobtainedmanyvaluableresultsbuttherestillareadealofmorechallengingproblemstodiscuss.Thetaskofminingassociationrulesconsistsoftwomainsteps.Thefirstinvolvesfindingthesetofallfrequentitemsets.Thesecondstepinv

6、olvestestingandgeneratingallhighconfidencerulesamongitemsets.Forthebothstep,computablecomplexityisthebottleneckofthealgorithmforthenumberoffrequentitemsetsincreaseswiththenumberofitemsexponentially.ThispaperdescribeanalgorithmcalledPartitionthatisfundamentallyd

7、ifferentfromallthepreviousalgorithmsinthatitscansthedatabaseatmosttWOtimestOgenerateallsignificantassociationrules.Thealgorithmexecutesintwophases,Inthefirstphase,thePartitionalgorithmIogicallydividesthedatabaseintoanumberofnon—overlappingpartitions.Thepartitio

8、nsareconsideredoneatatimeandalllargeitemsetsforthatpartitionaregenerated.Attheendofphase1,theselargeitemsetsaremergedtogenerateasetofallpotentiallargeitemsets.Inphase11,Scan

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。