基于spark的分布式频繁项集挖掘算法研究

基于spark的分布式频繁项集挖掘算法研究

ID:22282007

大小:52.50 KB

页数:6页

时间:2018-10-28

基于spark的分布式频繁项集挖掘算法研究_第1页
基于spark的分布式频繁项集挖掘算法研究_第2页
基于spark的分布式频繁项集挖掘算法研究_第3页
基于spark的分布式频繁项集挖掘算法研究_第4页
基于spark的分布式频繁项集挖掘算法研究_第5页
资源描述:

《基于spark的分布式频繁项集挖掘算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Spark的分布式频繁项集挖掘算法研究-->第一章绪论1.1课题研究背景与意义随着信息化时代的发展,人类的社会生产活动产生了大量有用的数据,尤其是随着数据库的发展和互联网时代的到来,导致了海量数据的产生。在这些海量数据里,隐含着有价值或有潜力的信息。快速地从这些海量数据中提取有用的信息,以辅助上层决策,对国家和企业来说,都是很有意义的。有了这些信息,决策者们再也不用像以前那样光靠经验来做决策,而是多了一个可靠的参考信息。所以,如何有效地充分利用这些数据,就成了国家和企业决策者们迫切关心的问题。在这样的大背景下,数据挖掘(DataMining,DM

2、)技术孕育而生,有时也称之为知识发现(KnoazonS3等。从某种意义上讲,Spark的出现并不是要消灭Hadoop。相反,Spark充分利用了HDFS和YARN,可以看作是为了弥补Hadoop的缺点而产生的。RDD(ResilientDistributedDatasets)是弹性分布式数据集的简称,它是分布式只读且已分区的集合对象。这些对象是弹性的,即如果数据的某部分丢失,则还可以对它们进行重建,因此它具有自动容错、位置感知调度和可伸缩性。图2-1显示的是Spark的体系结构。...............2.2频繁项集挖掘算法关联规则挖掘的整个过

3、程主要分两步来完成:第一步是找出数据库中所有满足最小支持度阈值的频繁项集;第二步是由频繁项集产生所有满足最小置信度阈值的关联规则[1]。由于关联规则挖掘的整体性能主要是由第一步的性能所决定,因此,关联规则挖掘的关键和难点都集中在了频繁项集的挖掘上。随着关联分析技术的不断发展,众多的研究学者提出了许多优秀的频繁项集挖掘算法,包括单机(single-machine)挖掘算法、基于MPI(MessagePassingInterface)的挖掘算法、基于MapReduce的挖掘算法和基于Spark的挖掘算法,接下来分别简要介绍一些优秀的频繁项集挖掘算法。..

4、.............第三章基于Spark的分布式频繁项集挖掘算法...............193.1FP-gro算法................40第六章DFPS算法在项目中的应用6.1项目概述项目将主要基于SAP技术,搭建SAP技术大数据应用平台,做大数据技术的前瞻性研究和开发应用。利用SAP技术,搭建从数据抽取、数据存储到数据应用的大数据技术平台,对其中的技术点进行前瞻性研究,同时该技术平台可以做为培训和学习的操作环境,具体包括:1)基于互联网大数据的采集利用甲方现有产品万网智能平台,进行互联网大数据的采集,对采集的数据进行处理和整

5、合,做为后继数据存储和数据挖掘的数据集;2)HANA和Hadoop的大数据多层存储架构搭建HANA和Hadoop的集成环境,实现大数据的分层存储,满足查询性能和存储空间的平衡需求;3)基于SAPPA的数据挖掘技术基于大数据的分层存储,对加工好的数据进行数据挖掘技术的研究,包括预测、分类、社交网络和推-->荐功能;4)基于R语言的数据挖掘技术集成HANA和R的环境,基于大数据以R语言进行数据挖掘的探究,实现SAPPA同样的功能,并对数据挖掘结果进行比对分析。...............6.2项目实施在项目的实施阶段,首先,根据项目的具体要求,设计出一

6、个大数据研发平台,实现HANA和Hadoop的集成;然后,根据设计要求,搭建大数据平台并集成HANA/Hadoop和R的环境;最后,基于SAPPA技术、R语言和本文的研究算法——DFPS算法,对淘宝的交易数据进行频繁项集挖掘,得到频繁地被客户一起购买的商品组合。根据要求,我们需要设计一个HANA和Hadoop集成的方案,实现大数据的分层存储,满足查询性能和存储空间的平衡需求。最终,我们设计的方案是:结构化数据存储在Hive上,而非结构化数据存储在HDFS上,利用MapReduce计算框架,可以实现海量数据简单的自定义分析逻辑;由于Hadoop所擅长的

7、是批处理,对于迭代计算的问题则显得力不从心,所以我们利用ApacheSpark来弥补Hadoop的不足,实现非实时作业的分布式迭代计算;对于实时性要求较高的作业,则将这些作业移动到HANA中完成。通过SAPHANA和Hadoop的连接器,将Hadoop上的数据抽取到HANA中,并保存在原始表里,通过计算层得到的结果则存储在结果表或分析视图中。...............总结随着信息化时代的发展,人类逐步进入了大数据时代,在这些海量数据里,隐含着有价值或有潜力的信息。快速地从这些海量数据中提取有用的信息,以辅助上层决策,对国家和企业来说,都是很有意义

8、的。频繁项集挖掘是数据挖掘研究领域中的一个重要课题,它是关联规则、因果关系、相关性分析、情节片段、序列项集、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。