基于商品分类信息的关联规则聚类

基于商品分类信息的关联规则聚类

ID:14512646

大小:916.00 KB

页数:8页

时间:2018-07-29

基于商品分类信息的关联规则聚类_第1页
基于商品分类信息的关联规则聚类_第2页
基于商品分类信息的关联规则聚类_第3页
基于商品分类信息的关联规则聚类_第4页
基于商品分类信息的关联规则聚类_第5页
资源描述:

《基于商品分类信息的关联规则聚类》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、计算机研究与发展2003年v40基于商品分类信息的关联规则聚类阮备军朱扬勇(复旦大学计算机与信息技术系,上海200433)(E-mail:ruanbj@dmgroup.org.cn)摘要关联规则挖掘经常产生大量的规则,为了帮助用户作探索式分析,需要对规则进行有效的组织。聚类是一种有效的组织方法。已有的规则聚类方法在计算规则间距离时都需要扫描原始数据集,效率很低,而且聚类结果是固定数目的簇,不利于探索式分析。针对这些问题,提出了一种新的方法。它基于商品分类信息度量规则间的距离,避免了耗时的原始数据集扫描;然后用OPTICS聚类算法产生便于探索

2、式分析的聚类结构。最后用某个零售业公司的实际交易数据作了实验,并通过可视化工具演示了聚类效果。实验结果表明此方法是实用有效的。关键词数据挖掘,关联规则,聚类,可视化中图法分类号TP311AssociationRuleClusteringBasedonTaxonomyInformationRUANBei-jun,ZHUYang-yong(DepartmentofComputingandInformationTechnology,FudanUniversity,ShangHai200433,China)AbstractAssociationru

3、leminingoftenproducesalargenumberofrules.Tofacilitateexploratoryanalysisstructuringrulesisneeded.Ausefulmethodforstructuringrulesisclustering.Allofexistingmethodsforclusteringrulessufferfromthecostlyscanoftheoriginaldatasetfordeterminingthedistancesbetweenrules.Moreover,th

4、eresultofthesemethodsisafixednumberofclustersthatmakesexploratoryanalysisdifficult.Anewmethodisproposedtoovercometheseproblems.Taxonomyinformationisusedtomeasurethedistancesbetweenrulesandtheexpensivescanoftheoriginaldatasetisavoided.AClusteringalgorithm,OPTICS,isappliedto

5、generatetheclusteringstructuresuitableforexploratoryanalysis.Finally,anexperimentisconductedonareal-lifedatasetandtheexperimentalresultispresentedviaavisualizationtool,showingourmethodispracticalandeffective.Keywordsdatamining,associationrule,clustering,visualization计算机研究与

6、发展2003年v401引言本文工作得到国家863计划的支持(项目编号;2001AA113181).关联规则挖掘是一项常用的数据挖掘技术,但是经常产生大量的规则,其中大部分并不令人感兴趣。此问题使得发现令人感兴趣的规则变得十分困难。兴趣度度量(interestingnessmeasure)可以帮助用户过滤出可能令人感兴趣的规则,缩小搜索的范围,但是在很多情况下用户需要浏览和分析整个挖掘结果。这是因为规则是否令人感兴趣是主观的,依赖于用户的领域知识和当前的兴趣。然而在实际应用中用户却常常不知道自己当前的兴趣是什么,需要对挖掘结果进行一番探索,在

7、探索中逐步建立或想起自己的兴趣所在。因此帮助用户对挖掘结果作探索式分析的技术十分有用。与此相关的研究工作主要是关联规则的可视化[1][2][3][4][5]。现有的这些方法主要关心如何有效地显示出每条规则的内部信息,对规则只作了某种简单的排列。如果可视化空间中显示了大量的规则,规则的内部信息的提示作用会大大减弱,用户的探索工作会变得很困难。我们认为关键是大量的规则缺乏有效的组织。本文从交易数据库挖掘领域考虑这个问题,此类规则的前项(antecedent)和后项(consequent)都是项集(itemset)。聚类是一种有效的规则组织方法[

8、6]计算机研究与发展2003年v40。已有的规则聚类方法[6][7]在计算规则间距离时都需要扫描原始数据集,计算时间很长;而且聚类结果是固定数目的簇,不利于对挖掘结果作总体观察和

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。