大数据时代的数据挖掘技术与应用.pdf

大数据时代的数据挖掘技术与应用.pdf

ID:53273869

大小:205.15 KB

页数:3页

时间:2020-04-17

大数据时代的数据挖掘技术与应用.pdf_第1页
大数据时代的数据挖掘技术与应用.pdf_第2页
大数据时代的数据挖掘技术与应用.pdf_第3页
资源描述:

《大数据时代的数据挖掘技术与应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、2014年第3期—E庆三峡学院掌报No.3.20/4第30卷(151期)JOURNALOFCHONGOINGTHREEGORGESUNIVERSITY、bl-30No.151大数据时代的数据挖掘技术与应用李平荣(陇南师范高等专科学校,甘肃成县742500)摘要:随着数据挖掘技术研究的进步与发展,并伴随着大数据概念的提出,将为数据挖掘技术的发展和应用带来一个很大的机遇,数据挖掘技术将进入一个新的发展时期.文章全面介绍了大数据,数据挖掘的基本概念以及数据挖掘的分析方法,最后给出了大数据时代的挖掘技术的应用领域及将来

2、发展方向.关键词:大数据;数据挖掘;数据提取中图分类号:Tu7文献标识码:A文章编号:1009-8135(2014)03-0045-031基本概念介绍1.1大数据2011年5月,麦肯锡全球研究院在《大数据:创新、竞争和生产力的下一个新领域》中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产要素;而人们对于大数据的运用预示着新一波生产率增长和消费者盈余浪潮的到来.2012年3月29日,美国政府在白宫网站上发布了《大数据研究和发展倡议》,表示将投资2亿美元启动“大数据研究和发展计划”【lJ,增强从大

3、数据中分析提取信息.“大数据”到底有多大?根据统计,仅在2011年,全球数据增量就达到了1.8ZB,相当于全世界的每个人产生200GB以上的数据.而且这种增长趋势仍在快速增长,据估计,在未来,数据将至少保持每年50%的增长速度.1.2数据挖掘数据挖掘是一门新兴的学科,它诞生于20世纪80年代,主要面向商业应用的人工智能研究领域.从技术角度看,数据挖掘就是从大量的、复杂的、不规则的、随机的、模糊的数据中获取隐含的、人们事先没有发觉的、有潜在价值的信息和知识的过程.从商业角度来说,数据挖掘就是从庞大的数据库中抽取、

4、转换、分析一些潜在规律和价值,从中获取辅助商业决策的关键信息和有用知识.2数据挖掘的基本分析方法分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律.通过不同的分析方法,将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法.目前常用的分析方法主要有聚类分析、分类和预测、关联分析等.2.1聚类分析聚类分析就是将物理或抽象对象的集合进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,其目的就是通过相似的方法来收集数据分类.它是一种无先前知识,无监督的学习

5、过程,从数收稿日期:2014—02-28作者简介:李平荣(1979-),男,甘肃天水人,陇南师范高等专科学校讲师,主要研究计算机硬件技术.李平荣:大数据时代的数据挖掘技术与压‘用据对象中找出有意义的数据,然后将其划分在一个在数据挖掘中,遗传算法经常被用作评估其他未知的类.这不同于分类,因为它无法获知对象的算法的适合度.它是一种由生物进化而启发的一种属性.“物以类聚,人以群分”,通过聚类来分析事学习方法,通过对当前已知的最好假设变异和重组物之间类聚的潜在规律.聚类分析广泛运用于心理来生成后续的假设.每一步,用目前

6、适应性最高的学、统计学、医学、生物学、市场销售、数据识别、假设的后代来代替群体的某个部分,来更新当前群机器智能学习等领域.体的一组假设,以便实现各个个体的适应性的提聚类分析根据隶属度的取值范围可分为硬聚高.遗传算法由三个基本过程组成:繁殖(选择)、类和模糊聚类两种方法.硬聚类就是将对象划分到交叉(重组)、变异(突变).距离最近聚类的类,非此即彼,也就是说属于一类,2.6可视化技术就必然不属于另一类.模糊聚类就是根据隶属度的可视化技术是数据挖掘中应用非常广泛的一取值范围的大小差异来划分类.一个样本可能属于种辅助技

7、术.它借助图形、图像、动画等手段形象多个类.常见的聚类算法主要有密度聚类算法、层地指导操作、引导挖掘和表达结果等.这种手段很次聚类算法、划分聚类算法、网格聚类算法、模型好地解决了数据挖掘中涉及的比较复杂的数学方法聚类算法等.和信息技术的表现形式,方便了用户理解和使用技2.2分类和预测术,为数据挖掘技术的推广普及起到很大的作用.分类和数值预测是问题预测的两种主要类型.分类是预测分类(离散、无序的)标号,而预测则是建立连续值函数模型.分类是数据挖掘的重要基础,它是对已知的训练数据集表现出来的特性,获得每个类别的描述

8、或属性来构造相应的分类器或者分类.分类是一种有监督的学习过程,它是根据训练数据集发现准确描述来划分类别.常见的分类算法主要有决策树、粗糙集、贝叶斯、遗传算法、神经网路等.预测就是根据分类和回归来预测将来的规律.常见的预测方法主要有局势外推法、时间序列法和回归分析法【2】.2.3关联分析一~在自然界,事物之间存在着千丝万缕的联系,当某一事件发生时,可能会带动其它事件的发生.关图3-1数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。