欢迎来到天天文库
浏览记录
ID:53018446
大小:546.08 KB
页数:9页
时间:2020-04-12
《大数据中效用挖掘的快速单阶段算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、研究与开发大数据中效用挖掘的快速单阶段算法刘君强’。周青峰’,王文慧,时磊’(1.浙江工商大学杭州310018;2浙江水利水电学院杭州310018)摘要:现有数据挖掘算法的缺点是在挖掘大数据时会出现大量候选模式,从而造成可伸缩性瓶颈,个别算法虽然不生成候选模式,但是计算代价高昂,缺乏有效剪裁,运行效率存在瓶颈。为此,提出一个全新的单阶段不生成候选模式的数据挖掘算法.其创新性有3点:一是基于前缀生长的模式枚举和基于效用上限值评估的剪裁策略:二是基于稀疏矩阵和虚拟投影的效用信息表达;三是节省存储空间的深度优先搜索方法
2、。大量实验表明.新算法的时间效率比现有算法高5倍以上,并且内存使用量比现有算法少20%~60%,可伸缩性高。关键词:大数据;效用挖掘;高效用模式;频繁模式doi:10.11959/j.issn.1000~0801.2015100FastSinglePhaseAlgorithmforUtilityMininginBigDataLiuJunqiang,ZhouQingfeng,WangWenhui。,ShiLei(1.ZhejiangGongshangUniversity,Hangzhou310018,China;2
3、.ZhejiangUniversityofWaterResourcesandElectricPower,Hangzhou310018,China)Abstract:Mostofthelatestworksonutilitymininggeneratesahugenumberofcandidatesindealingwithbigdata,whichsufersfromthescalabilityissue.Someworkdoesnotgeneratecandidates,butsufersfromtheefic
4、iencyissueduetolackofstrongpruningandhighcomputationoverhead.Anovelalgorithmthatfindshighutilitypatternsinasinglephasewithoutgeneratingcandidateswasproposed.Thenoveltieslieinaprefixgrowthstrategywithstrongpruning,andasparsematrixbasedrepresentationoftransacti
5、onswithpseudoprojection.Theproposedalgorithmworksinadepthfirstmanneranddoesnotmaterializehighutilitypatternsinmemory,whichfurtherimprovesthescalability.Extensiveexperimentsonsyntheticandreal-worlddatashowthattheproposedalgorithmoutperformsthelatestworksinterm
6、sofrunningtime,memoryoverhead,andscalability.Keywords:bigdata,utilitymining,highutilitypattern,frequentpattern言袭旱效用模式挖掘[。-6]是近年来发展起来的大数据分析技挖掘出购买频率较高的产品组合,而效用模式挖掘技术可收稿日期:2014—12—09:修回日期:2015—04—10基金项目:国家自然科学基金资助项目(No.61272306),浙江省自然科学基金资助项目(No.LY12F02024)Found
7、ationItems:TheNationalNaturalScienceFoundationofChina(No.61272306),rheZhejiangProvincialNaturalScienceFoundationofChina(No.LY12F02024)论文引用格式:刘君强,周青峰,王文慧.大数据中效用挖掘的快速单阶段算法.电信科学,2015100
8、JiuJQ,ZhouQF,WangWH.Fastsinglephasealgorithmforutilitymininginbigdata.Teleco
9、mmunicationsScience,2015100电信科学2o1基以从中发现利润回报较高的产品组合。效用模式挖掘不仅引入效用模型,为融合多个属性并从中提炼有价值信息提是各种挖掘问题的基础_12~41。也可以直接应用于各种大数供一种通用方法。因此,效用挖掘在大数据分析中有着广据分析。例如,网络传媒的点击率和转化率分析、价值链分泛的应用析、网购的消费者行为理解和预测等。简
此文档下载收益归作者所有