大数据下数据挖掘算法综述.doc

大数据下数据挖掘算法综述.doc

ID:61773903

大小:29.00 KB

页数:4页

时间:2021-03-20

大数据下数据挖掘算法综述.doc_第1页
大数据下数据挖掘算法综述.doc_第2页
大数据下数据挖掘算法综述.doc_第3页
大数据下数据挖掘算法综述.doc_第4页
资源描述:

《大数据下数据挖掘算法综述.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、大数据下数据挖掘算法综述【摘要】在互联网发展的早期,虽然每天也会产生很多新的数据,但是数据量相对而言还可以用人力分析的方法来处理,并且对于固定的某个站点和角度去切入的话,所需要处理的数据量就更少了。随着互联网的飞速发展,每天产生的全新数据越来越多,并且呈指数态势上升,大量的数据中势必蕴含着大量有价值的信息,如果能抽取出这些信息,那么对于企业的发展和社会的发展都将大有裨益,在这个背景之下,很多数据挖掘处理方法应运而生。数据挖掘即使用计算机工具从海量的数据中挖掘出有价值的模式和规律,并用这些模式和规律去预测和指导未

2、来的行为。在当今的互联网背景之下,最为常用的数据挖掘算法有频繁模式挖掘、聚类分析、决策树和贝叶斯网络等,本文将从若干方面入手,条理系统地介绍一下各类数据挖掘算法的原理、使用方法以及适用范围,力求为数据挖掘算法的应用提供一个良好的参考和指导。【关键词】数据挖掘;频繁模式挖掘;聚类分析1导论4学海无涯1.1背景问题.当今互联网上90%以上的数据都是在两年内产生的,并且每天产生的数据量仍然在以巨大的速度上升,在这样的背景之下,对于海量的数据仅仅有接收和存储的能力是不够的,还需要对这些数据进行有效的处理,进而获取能指导

3、未来行为的规律和模式,并提高企业、社会、组织和机构的效益以及效率。计算机处理数据的速度很快,但是从海量数据中挖掘规律并不是简单的操作,因此需要有行之有效的数据挖掘算法来完成在数据中“沙里淘金”的过程,因此各种数据挖掘算法也就应运而生了。1.2研究综述.在数据挖掘领域中,涌现了一大批各式各样的算法,其中应用最为广泛的是频繁模式挖掘、聚类分析、决策树和随机森林、贝叶斯网络这四类,其他算法很多是基于这四大类算法的改进和扩展。其中频繁模式挖掘的作用是从大量的数据(事务集)中获取某些项之间的相关模式,它可以用于指导项之间

4、的关联分析。聚类分析的作用是对于大量的数据进行聚类操作,通过查看哪些数据聚拢在一起来对数据进行分类和相关分析。决策树是通过以数据中各个属性为分类依据将数据不算分类,最终构成一个树的形态,用于对数据进行分类判别处理;随机森林是使用多棵决策树同时进行判别和分类,最终投票选出结果。贝叶斯网络同样是一种分类算法,在已知“执因索果”的前提条件下,通过条件概率和贝叶斯概率公式,进行“执果索因”的操作,是贝叶斯公式的成功运用。1.3本文介绍.本文从频繁模式挖掘和聚类分析的角度出发,分别对这两个算法进行介绍和分析。每一部分算法

5、都分为三个部分,分别是算法介绍、算法过程以及算法分析。算法介绍部分主要是关于算法的主要思想,算法过程部分介绍了算法具体模型和执行过程,在算法分析部分,本文从算法的优缺点和应用场景分别给出了解释和说明。2频繁模式挖掘2.1算法介绍.频繁模式挖掘的目的是在大量的数据中获取到频繁出现的模式,这些模式以规则的形式出现,即X→Y的形式,其中X和Y都是项集,即若干项组成的集合,这个规则表示的含义是“若项集X出现,则项集Y也可能会出现”,那么如果要度量这个规则是否可用,需要从两个方面入手,即这个规则足够常见以及这个规则足够可

6、信。对于“足够常见”的度量,有一个度量指标叫做支持度,对于集合S来说,它的支持度表示为sup(s)={ti|S奂ti,ti奂T}T,其中T是全体数据,以事务集的形式给出(即若干原始项集构成的列表),ti是事务集中的一个事务(即一个原始项集)。一个集合的支持度越高,那么它就出现得越频繁。对于“足够可信”的度量,有一个度量指标叫置信度,对于规则X→Y而言,它的置信度表示为conf(X→Y)=sup(X∪Y)sup(X),即集合X∪4学海无涯Y的支持度与集合X的支持度的比值。对于一个合格有用的规则而言,它的支持度和置

7、信度要同时满足一定的标准才可以被接受,因此对于频繁模式挖掘需要另外设置两个阈值,分别是最小支持度阈值min_sup和最小置信度阈值min_conf,只有指定的规则同时满足这两个阈值的情况下,才可以认为该规则是可以被接受的。对于具体的问题,最小支持度阈值和最小置信度阈值往往不同。2.2算法过程.对于频繁模式挖掘而言,算法的步骤一共分为两个大部分,即频繁模式的计算和频繁规则的计算,下边分别介绍这两个部分:2.2.1频繁模式的计算.频繁模式也叫频繁项集,即从给定的数据集中找到那些频繁出现的项集。频繁模式的计算方法很多

8、,如Fk-1×F1、Fk-1×Fk-1和FPTree等,这里着重介绍Fk-1×F1方法,下边是计算过程:(1)首先计算所有的1-频繁项集,并放入1-频繁项集的集合中;(2)对于当前的轮次(初始值为1),求两个集合Fk的笛卡尔积,然后求出结果中所有的频繁项集,对于(k-频繁项集,放入其所属的集合中;(3)进入下一轮次,重复执行2)的操作;(4)如果某一轮中没有新的频繁项集产生,则算法终止

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。