基于云计算的海量数据挖掘算法分析研究.pdf

基于云计算的海量数据挖掘算法分析研究.pdf

ID:55399854

大小:91.69 KB

页数:1页

时间:2020-05-15

基于云计算的海量数据挖掘算法分析研究.pdf_第1页
资源描述:

《基于云计算的海量数据挖掘算法分析研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ACADEMICRESEARCH学术研究基于云计算的海量数据挖掘算法分析研究◆邢国军王保勇摘要:海量数据处理是数据挖掘领域的重要内容,特别是随着数据存储量的剧增,传统的数据挖掘算法在执行速度上受到严峻挑战。云计算技术的应用,迪欧数据挖掘流程给予了优化,特别是在动态资源调度上能够实现高可用性、高虚拟化需求。本文将从云计算环境下并行计算模型及算法入手,来探讨其技术优势。关键词:云计算;数据挖掘;算法研究;应用据分布式并行操作的关键。信息控制分为事务读取单元、管理一、基于云计算下的海量数据挖掘研究单元,算法是结合信息控制需要来完成相应的处理。以并行数据挖掘是从海量数据中发现新的

2、有效的知识过程。从SPRint为例,首先要进行云计算平台的移植,利用MapReduce技术上来看,随着数据存储量的增加,如何从庞大的数据规模编程模式进行封装,以减少算法运行的时间,并通过多进程递中挖掘到有用的知识,就需要从数据应用环境上来进行动态整归调用来构建决策树。第一阶段要对待处理数据进行拆分并排合。云计算技术能够根据用户需求来进行数据挖掘算法优化,序,依照算法对属性表基值进行定义,利用m印()函数完成数并通过容错机制来保障数据挖掘的可靠性。在进行分布式并行据结构。对于Reduce操作,其主要工作是计算属性表的基尼指数据挖掘中,云计算模式能够从不同规模的数据中,对某些

3、特数,以实现对数据的最佳分割。第二阶段是对屙I生表中的数据定数据进行组织;对于用户来说,云计算以虚拟化技术为基进行保存,根据上阶段定义的属性表,本阶段要采用循环方式础,无须考虑数据的加载、划分、任务调度等;并行化理念下来实现分割。Mapi~数需要对数据进行结构转化,使其具有相能够适应更大规模的数据处理,且具有较高的容错性;在数据同的属性名,才能被分派~1]Reduce。在接受MaD传递的属性值共享上降低了挖掘应用的门槛,满足了用户的不同需求。从云后,Reduce~对其进行排序处理,依照连续型、离散型创建各计算挖掘模型结构来看,最底层为云计算服务层,主要满足并自的直方图,以

4、遍历方式完成对直方图的刷新和最佳分割。对行数据处理及海量存储,并对数据的安全性、高可用性提供于进程MaD存储在HDFS中,其输出结构要进行分配处理,在保障。如开源HDFS、非开源GFS等技术。中间层为数据挖掘这一环节要就强化算法的效率,减少数据结构的复杂度。第三处理层,主要从数据预处理、数据挖掘算法上来构建云计算环阶段是对属性表全部分送至叶子节点,完成对决策树的创建,境,以满足对各类海量数据的抽取、转换、集成、规约等目无论叶子节点和其他阶段都计作N。这样一来,对于HDFS提标。在本层中的关键技术是挖掘算法的并行化,因此在并行策取的决策树,就能够实现完整的构造和输出。略上,

5、要从海量数据的高效性上进行改造,如并行关联规则算三、分布式并行数据挖掘算法有效性探讨法、分类算法、聚类算法等。最上层是面向用户层,主要从接收用户请求来传递给下层执行,并将数据挖掘结果进行可视化在分布式环境下,对于数据挖掘分片中的数据偏度问展示。在数据请求上,主要以挖掘参数及基本数据,通过调用题是探讨的关键,无论是同步还是异步,都需要从负载平衡预处理算法,就数据挖掘结果传递给展示模块。上进行协调,以发挥各节点的计算能力。因此,在进行项集分析时,通常采用随机分配方法、聚类方法和逆Hash法来处二、分布式并行数据挖掘算法框架及算法设计理。针对算法的有效性问题,要从项集产生效率上

6、,增大候在构建分布式并行数据挖掘算法框架中,其思想是利选项集,促进数据的二次分片,提升分发效率。同时,还可用数据库的分片原则,由中央分布单元负责对各分节点的汇以从散列技术上进行划分、选样、以及动态项集计数,来提总。不同节点的算法是不固定的,在分布式环境下,需要进升算法的执行效率。总之,在分布式并行数据挖掘算法研究行如下定义如项集x的定义,支持度suppo~(X)的定义,事务中,重点要对数据库的分片挖掘和合并,从不同高效关联规数据库D中t事务的次数,其关系满足:则中提升数据挖掘的效率。对于更大规模的云环境,在分布support(X)=8{tEDlXt)I/lI{tED}。式

7、数据库挖掘算法应用中,要通过对集合枚举树进行全局预对于规则r府该满足XY的置信度:测,以减少因事物量过多导致分发瓶颈的产生。Hconfident(r)support(xuY)/support(x)。对于项集中数据分片P的支持度记作,即参考文献{xIx1IXI=ksupporP(x)≥mi11sup},贝0P的项⋯王小妮,高学东,倪晓明.基于云计算的分布式数据挖掘平台架构北京信息科技大学学报(自然科学gt),2011(05).集表示为=l『..,。(作者单位:河南省轻工业学校)从数据挖掘的核心来看,算法设计是重点,也是实现数12

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。