一种基于Hadoop的并行关联规则算法.pdf

一种基于Hadoop的并行关联规则算法.pdf

ID:52963506

大小:1.14 MB

页数:5页

时间:2020-04-04

一种基于Hadoop的并行关联规则算法.pdf_第1页
一种基于Hadoop的并行关联规则算法.pdf_第2页
一种基于Hadoop的并行关联规则算法.pdf_第3页
一种基于Hadoop的并行关联规则算法.pdf_第4页
一种基于Hadoop的并行关联规则算法.pdf_第5页
资源描述:

《一种基于Hadoop的并行关联规则算法.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第27卷第1期天津理工大学学报Vol.27No.12011年2月JOURNALOFTIANJINUNIVERSITYOFTECHNOLOGYFeb.2011文章编号:1673-095X(2011)01-0025-04一种基于Hadoop的并行关联规则算法112余楚礼,肖迎元,尹波(1.天津理工大学计算机与通信工程学院,天津300384;2.21世纪恒丰环保节能工程有限公司,天津300384)摘要:在挖掘大型数据库的关联规则时,使用并行计算是必需的.针对传统的并行计算,存在不能处理节点失效,难以处理负载均衡等问题,提出基于Hadoop架构实现并行关联规则计算的

2、设计.理论和实验证明,基于Hadoop的并行关联规则计算,能处理节点失效,并且能做到节点负载均衡.关键词:关联规则;Hadoop;云计算;数据挖掘中图分类号:TP312文献标识码:Adoi:10.3969/j.issn.1673-095X.2011.01.007AparallelalgorithmforminingfrequentitemsetsonHadoop112YUChu-li,XIAOYing-yuan,YINBo(1.SchoolofComputerandCommunicationsEngineering,TianjinUniversityofTe

3、chnology,Tianjin300384,China;2.21stCentruyHengfengEnvironmentalConservtionEngineeringCo.,Ltd,Tianjin300384,China)Abstract:Parallelcomputeisrequiredinminingfrequentitemsetsonlargedatabases.MPIcan'thandlenodefailure,andit'sdifficulttosolveloadbalance.Soweproposeparallelminingfrequent

4、itemsetsonHadoop.TheoreticalandexperimentalresultsshowparallelminingfrequentitemsetsonHadoopcanhandlenodefailureandcansolveloadbalance.Keywords:associationrules;Hadoop;cloudcompute;datamining关联规则是用来描述事物之间的联系,是用来1Hadoop简介挖掘事物之间的相关性.挖掘关联规则的核心是通[7]过统计数据项获得频繁项集,现有的算法主要有Hadoop是一个分布式基础架构

5、,可以在不了[1][2][3]Apriori,PARTITION、FP2growth及抽样算法解分布式底层细节的情况下,开发分布式或并行应等,这些算法是基于单节点的算法.但是,现在的数用程序,充分利用集群的威力高速运算和存储,它也据库越来越大,达到了TB级甚至更大,采用传统的是云计算的主要架构之一.Hadoop具有以下一些算法将非常缓慢,甚至不能服务于有时限性的问题.特点:为此,研究人员提出了多种并行挖掘算法,主要有1)扩容能力:能可靠地存储和处理PB级别CD(countdistribution)、DD(datadistribution)、CaD数据.(ca

6、ndidatedistribution)[4]、FDM[5]和FMAGF[6]等.这2)成本低:可以通过普通微机组成的集群来分发以及处理数据.这些服务器群总计可达数千个些算法解决了挖掘效率的问题,但是由于并行计算节点.是由很多计算节点组成,节点失效、负载不易均衡带3)高效率:通过分发数据,Hadoop可以并行地来的问题仍然会给计算带来很多阻碍.的处理数据,这使得处理非常的快速.4可靠性:Ha-收稿日期:2010-11-10.基金项目:国家863基金(2009AA01Z152);天津市自然科学基金(08JCYBJC12400);中小企业创新基金(08ZXCXG

7、X15000).作者简介:余楚礼(1981—),男,硕士研究生.通讯作者:肖迎元(1969—),男,博士,副教授,E-mail:xyyacad@tom.com.·26·天津理工大学学报第27卷第1期doop能自动地维护数据的多份复制,并且在任务失CD算法有两个缺陷:败后能自动地重新部署计算任务.1)某个计算节点失败,会导致整个计算失败.2)计算节点的速度存在差异时,计算时间由计算性能差的节点决定,这样会导致计算资源的浪费.基于Hadoop来改进CD算法,可以解决上述的问题:1)在Hadoop上运行时,某一节点的计算失败,不会导致整个计算的失败.因为当某一个节

8、点计算失败时,Hadoop系统会把它的计算任务分配到

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。