大数据环境下基于hadoop框架的数据挖掘算法的研究与实现

大数据环境下基于hadoop框架的数据挖掘算法的研究与实现

ID:20040428

大小:81.00 KB

页数:5页

时间:2018-10-08

大数据环境下基于hadoop框架的数据挖掘算法的研究与实现_第1页
大数据环境下基于hadoop框架的数据挖掘算法的研究与实现_第2页
大数据环境下基于hadoop框架的数据挖掘算法的研究与实现_第3页
大数据环境下基于hadoop框架的数据挖掘算法的研究与实现_第4页
大数据环境下基于hadoop框架的数据挖掘算法的研究与实现_第5页
资源描述:

《大数据环境下基于hadoop框架的数据挖掘算法的研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、大数据环境下基于Hadoop框架的数据挖掘算法的研究与实现周佩朱娴睿何汉张毅黑龙江省财政信息中心哈尔滨市信息化建设项目管理中心摘要:随着当前科学技术的发展,我W各行业的发展进入了大数据时代,这就为数据挖掘算法创造了条件。在大数据环境下,为了使数据挖掘的速度得以提高,木次研宄主要对基于Hadoop框架的数据挖掘算法进行研究,得出由PrePost算法改进的挖掘算法MRPrePost,这种挖掘算法是以Hadoop为平台,使编程难度得到降低,并且容易管理,通过深度优化使内存的开销得到降低,通过负载均衡的方法进行分组以使并行算法的重耍性能得到提高,从而使这种算法

2、提升运行速度,适应大数据环境下的数据挖掘。关键词:大数据环境;Hadoop框架;数据挖掘算法;研究;作者简介:周佩(1982—),男,山东福山人,硕士,高级工程师,研允方向为计算机信息系统分析与应用;作者简介:朱娴睿(1978一),女,黑龙江绥化人,硕士研究生学历,高级工程师,研宄方向为电子工程;作者简介:何汉(1979—)男,黑龙江哈尔滨人,硕士研宂生学历,高级工程师,研宄方向为计算机应用;作者简介:张毅(1982—)男,河北高阳人,大学本科学历,工程师,研究方向为计算机软硬件、网络工程。收稿日期:2017-08-05Received:2017-08

3、-05随着当前一些设备走向高智能化、高存储量,世界的信息量早已突破ZB级别,如此繁多的信息量已经使我们进入了大数据环境中,但如何使这些信息中包含的优质信息极其潜在价值进行精准的挖掘是当前面临的工作重点以及难点。数据挖掘已经在我国开展很多年,但这一方面的发展却始终追逐不上信息量的暴增,目前所使用的数据挖掘算法在大数据环境下早已经不再适用,大数据的挖掘出现了严重的滞后的现象,因此,在大数据环境下,掌握科学的数据挖掘算法是当前的主要任务。本次研宂主要通过Iladoop框架对已有的算法PrePost进行科学的改进,从而引出适合大数据环境下的数据挖掘算法MKPr

4、ePost,该算法具有计算快的特点,并能够适应关联规则数据挖掘,是当前数据挖掘算法的新模式。下文将对这种数据挖掘算法进行研宄,以实现对大数据环境的适应。1相关技术的简要概述1.1关联规则数据挖掘技术通过这项技术进行数据挖掘的目的在于搜寻事务之间存在的内在联系,并且这项技术已在各行业中得以推广应用,例如当今与我们生活息息和关的超市购物,通过这项技术能够将交易记录作为依据,然后搜索相关的物品,并对顾客的购买习惯进行分析,然后根据分析的结果对货架及库存进行安排,并对顾客进行智能分类。数据挖掘的前期准备工作非常重要,首先它需要进行最小置信度以及支持数进行参数设

5、置,从而使数据挖掘支持数高于最小支持数,从而以最小置信度使有效的管理规则数据产生。Hadoop技术框架Hadoop作为Apache中的开源项目之一,其能够进行提供可靠、开源、可扩展的分布式计算应用工具。Iladoop的组件主要包括两个,分别为MapReduce以及HDES,这两个组件的作用分别在于数据的计算和数据的存储,以下将分别介绍这两个组件。1.2.1MapReduce组件此组件是能够对数据进行计算,属于一种分布式的计算框架,能够对离线大数据进行有效的计算。并通过函数式编程这种模式,对Map函数以及Reduce函数进行合理的利用,从而实现较为繁杂的

6、计算。分布式的计算框架如阁1所示。图1MapReduce的分布式;计算框架卜载原图1.2.2HDFS组件此组件是一种独立形式的文件系统,可以通过自身的存储功能对MapReduce分布式计算框架进行服务,具有高可用性以及高容错性,以块存储作为基础,并通过流数据模式来进行正常的访问,一般情况下,数据节点具备相互备份的功能。存储块的初始人小被默认为64M,使用者也可以根据自身的情况对其人小进行自定义。HDFS从结构上来讲,主要包括DataNode数据存储、NameNode目录管理以及Client访问客户端三大部分。其中DataNode主要是文件系统中基木的存

7、储单元;NameNode主要对系统集群配置管理、命名空间以及复制存储块;Client主要是文件系统屮的一种应用程序,IIDFS具体的结构体系如图2所图2HDFS具体的结构体系下载原图2大数据环境下基于Hadoop框架的数据挖掘算法本文所提及的MRPrePost数据挖掘算法使以PrePost为基础进行改进形成的,其能够进行关联规则数据挖掘。次数据挖掘算法主要包含三个重要的部分,分别为统计频繁的一项集、F-list的均匀分组以及并行挖掘频繁模式。次算法具体的流程见图3。图3MRPrePost的流程图下载原图2.1统计频繁的一项集并行计算以水平分片的方式将数

8、据库进行处理,以Block为各子文件进行命名,同时使其分配至各worker节点之上,并将其当做

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。