一种基于Hadoop的并行关联规则算法.pdf

ID：52963506

大小：1.14 MB

页数：5页

时间：2020-04-04

资源描述：

《一种基于Hadoop的并行关联规则算法.pdf》由会员上传分享，免费在线阅读，更多相关内容在应用文档-天天文库。

1、第27卷第1期天津理工大学学报Vol．27No．12011年2月JOURNALOFTIANJINUNIVERSITYOFTECHNOLOGYFeb．2011文章编号:1673-095X(2011)01-0025-04一种基于Hadoop的并行关联规则算法112余楚礼，肖迎元，尹波(1．天津理工大学计算机与通信工程学院，天津300384;2．21世纪恒丰环保节能工程有限公司，天津300384)摘要:在挖掘大型数据库的关联规则时，使用并行计算是必需的．针对传统的并行计算，存在不能处理节点失效，难以处理负载均衡等问题，提出基于Hadoop架构实现并行关联规则计算的

2、设计．理论和实验证明，基于Hadoop的并行关联规则计算，能处理节点失效，并且能做到节点负载均衡．关键词:关联规则;Hadoop;云计算;数据挖掘中图分类号:TP312文献标识码:Adoi:10．3969/j．issn．1673-095X．2011．01．007AparallelalgorithmforminingfrequentitemsetsonHadoop112YUChu-li，XIAOYing-yuan，YINBo(1．SchoolofComputerandCommunicationsEngineering，TianjinUniversityofTe

3、chnology，Tianjin300384，China;2．21stCentruyHengfengEnvironmentalConservtionEngineeringCo．，Ltd，Tianjin300384，China)Abstract:Parallelcomputeisrequiredinminingfrequentitemsetsonlargedatabases．MPIcan＇thandlenodefailure，andit＇sdifficulttosolveloadbalance．Soweproposeparallelminingfrequent

4、itemsetsonHadoop．TheoreticalandexperimentalresultsshowparallelminingfrequentitemsetsonHadoopcanhandlenodefailureandcansolveloadbalance．Keywords:associationrules;Hadoop;cloudcompute;datamining关联规则是用来描述事物之间的联系，是用来1Hadoop简介挖掘事物之间的相关性．挖掘关联规则的核心是通［7］过统计数据项获得频繁项集，现有的算法主要有Hadoop是一个分布式基础架构

5、，可以在不了［1］［2］［3］Apriori，PARTITION、FP2growth及抽样算法解分布式底层细节的情况下，开发分布式或并行应等，这些算法是基于单节点的算法．但是，现在的数用程序，充分利用集群的威力高速运算和存储，它也据库越来越大，达到了TB级甚至更大，采用传统的是云计算的主要架构之一．Hadoop具有以下一些算法将非常缓慢，甚至不能服务于有时限性的问题．特点:为此，研究人员提出了多种并行挖掘算法，主要有1)扩容能力:能可靠地存储和处理PB级别CD(countdistribution)、DD(datadistribution)、CaD数据．(ca

6、ndidatedistribution)［4］、FDM［5］和FMAGF［6］等．这2)成本低:可以通过普通微机组成的集群来分发以及处理数据．这些服务器群总计可达数千个些算法解决了挖掘效率的问题，但是由于并行计算节点．是由很多计算节点组成，节点失效、负载不易均衡带3)高效率:通过分发数据，Hadoop可以并行地来的问题仍然会给计算带来很多阻碍．的处理数据，这使得处理非常的快速．4可靠性:Ha-收稿日期:2010-11-10．基金项目:国家863基金(2009AA01Z152);天津市自然科学基金(08JCYBJC12400);中小企业创新基金(08ZXCXG

7、X15000)．作者简介:余楚礼(1981—)，男，硕士研究生．通讯作者:肖迎元(1969—)，男，博士，副教授，E-mail:xyyacad@tom．com．·26·天津理工大学学报第27卷第1期doop能自动地维护数据的多份复制，并且在任务失CD算法有两个缺陷:败后能自动地重新部署计算任务．1)某个计算节点失败，会导致整个计算失败．2)计算节点的速度存在差异时，计算时间由计算性能差的节点决定，这样会导致计算资源的浪费．基于Hadoop来改进CD算法，可以解决上述的问题:1)在Hadoop上运行时，某一节点的计算失败，不会导致整个计算的失败．因为当某一个节

8、点计算失败时，Hadoop系统会把它的计算任务分配到

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 5



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

一种基于Hadoop的并行关联规则算法.pdf

一种基于Hadoop的并行关联规则算法.pdf

相关文章

相关标签