基于spark的分布式频繁项集挖掘算法研究

ID：22282007

大小：52.50 KB

页数：6页

时间：2018-10-28

资源描述：

《基于spark的分布式频繁项集挖掘算法研究》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、基于Spark的分布式频繁项集挖掘算法研究-->第一章绪论1.1课题研究背景与意义随着信息化时代的发展，人类的社会生产活动产生了大量有用的数据，尤其是随着数据库的发展和互联网时代的到来，导致了海量数据的产生。在这些海量数据里，隐含着有价值或有潜力的信息。快速地从这些海量数据中提取有用的信息，以辅助上层决策，对国家和企业来说，都是很有意义的。有了这些信息，决策者们再也不用像以前那样光靠经验来做决策，而是多了一个可靠的参考信息。所以，如何有效地充分利用这些数据，就成了国家和企业决策者们迫切关心的问题。在这样的大背景下，数据挖掘（DataMining，DM

2、）技术孕育而生，有时也称之为知识发现（KnoazonS3等。从某种意义上讲，Spark的出现并不是要消灭Hadoop。相反，Spark充分利用了HDFS和YARN，可以看作是为了弥补Hadoop的缺点而产生的。RDD（ResilientDistributedDatasets）是弹性分布式数据集的简称，它是分布式只读且已分区的集合对象。这些对象是弹性的，即如果数据的某部分丢失，则还可以对它们进行重建，因此它具有自动容错、位置感知调度和可伸缩性。图2-1显示的是Spark的体系结构。...............2.2频繁项集挖掘算法关联规则挖掘的整个过

3、程主要分两步来完成：第一步是找出数据库中所有满足最小支持度阈值的频繁项集；第二步是由频繁项集产生所有满足最小置信度阈值的关联规则[1]。由于关联规则挖掘的整体性能主要是由第一步的性能所决定，因此，关联规则挖掘的关键和难点都集中在了频繁项集的挖掘上。随着关联分析技术的不断发展，众多的研究学者提出了许多优秀的频繁项集挖掘算法，包括单机（single-machine）挖掘算法、基于MPI（MessagePassingInterface）的挖掘算法、基于MapReduce的挖掘算法和基于Spark的挖掘算法，接下来分别简要介绍一些优秀的频繁项集挖掘算法。..

4、.............第三章基于Spark的分布式频繁项集挖掘算法...............193.1FP-gro算法................40第六章DFPS算法在项目中的应用6.1项目概述项目将主要基于SAP技术，搭建SAP技术大数据应用平台，做大数据技术的前瞻性研究和开发应用。利用SAP技术，搭建从数据抽取、数据存储到数据应用的大数据技术平台，对其中的技术点进行前瞻性研究，同时该技术平台可以做为培训和学习的操作环境，具体包括：1）基于互联网大数据的采集利用甲方现有产品万网智能平台，进行互联网大数据的采集，对采集的数据进行处理和整

5、合，做为后继数据存储和数据挖掘的数据集；2）HANA和Hadoop的大数据多层存储架构搭建HANA和Hadoop的集成环境，实现大数据的分层存储，满足查询性能和存储空间的平衡需求；3）基于SAPPA的数据挖掘技术基于大数据的分层存储，对加工好的数据进行数据挖掘技术的研究，包括预测、分类、社交网络和推-->荐功能；4）基于R语言的数据挖掘技术集成HANA和R的环境，基于大数据以R语言进行数据挖掘的探究，实现SAPPA同样的功能，并对数据挖掘结果进行比对分析。...............6.2项目实施在项目的实施阶段，首先，根据项目的具体要求，设计出一

6、个大数据研发平台，实现HANA和Hadoop的集成；然后，根据设计要求，搭建大数据平台并集成HANA/Hadoop和R的环境；最后，基于SAPPA技术、R语言和本文的研究算法——DFPS算法，对淘宝的交易数据进行频繁项集挖掘，得到频繁地被客户一起购买的商品组合。根据要求，我们需要设计一个HANA和Hadoop集成的方案，实现大数据的分层存储，满足查询性能和存储空间的平衡需求。最终，我们设计的方案是：结构化数据存储在Hive上，而非结构化数据存储在HDFS上，利用MapReduce计算框架，可以实现海量数据简单的自定义分析逻辑；由于Hadoop所擅长的

7、是批处理，对于迭代计算的问题则显得力不从心，所以我们利用ApacheSpark来弥补Hadoop的不足，实现非实时作业的分布式迭代计算；对于实时性要求较高的作业，则将这些作业移动到HANA中完成。通过SAPHANA和Hadoop的连接器，将Hadoop上的数据抽取到HANA中，并保存在原始表里，通过计算层得到的结果则存储在结果表或分析视图中。...............总结随着信息化时代的发展，人类逐步进入了大数据时代，在这些海量数据里，隐含着有价值或有潜力的信息。快速地从这些海量数据中提取有用的信息，以辅助上层决策，对国家和企业来说，都是很有意义

8、的。频繁项集挖掘是数据挖掘研究领域中的一个重要课题，它是关联规则、因果关系、相关性分析、情节片段、序列项集、

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

基于spark的分布式频繁项集挖掘算法研究

基于spark的分布式频繁项集挖掘算法研究

相关文章

相关标签