数据挖掘技术综述new

数据挖掘技术综述new

ID:15648395

大小:20.33 KB

页数:10页

时间:2018-08-04

数据挖掘技术综述new_第1页
数据挖掘技术综述new_第2页
数据挖掘技术综述new_第3页
数据挖掘技术综述new_第4页
数据挖掘技术综述new_第5页
资源描述:

《数据挖掘技术综述new》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、数据挖掘技术综述随着计算机、网络技术的发展,获得有关资料非常简单易行。但对数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”(DateMining)技术应运而生。本文主要介绍了数据挖掘的基本概念以及数据挖掘的方法;本文对数据掘的应用及其发展前景也进行了描述。随着信息技术迅速发展,数据库的规模不断扩大,从而产生了大量的数据。激增的数据背后隐藏着许多重要的信息,人们希望能够对其行更高层次的分析,以便更好地利用这些数据。为

2、给决策者提供一个统一的全局视角,在许多领域建立了数据仓库。但大量的数据往往使人们无法辨别隐藏在其中的能对决策提供支持的信息,而传统的查询、报表工具无法满足挖掘这些信息的需求。因此,需要一种新的数据分析技术处理大量数据,并从中抽取有价值的潜在知识,数据挖掘(DataMining)技术由此应运而生。数据挖掘技术也正是伴随着数据仓库技术的发展而逐步完善起来的数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发

3、现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程,它是一门涉及面很广的交叉性新兴学科,涉及到数据库、人工智能、数理统计、可视化、并行计算等领域。数据挖掘是一种新的信息处理技术,其主要特点是对数据库中的大量数据进行抽取、转换、分析和其他模型化处理,并从中提取辅助决策的关键性数据。数据挖掘是KDD(KnowledgeDiscoveryinDatabase)中的重要技术,它并不是用规范的数据库查询语言(如SQL)进行查询,而是对查询的内容进行模式的总结和内在规律的搜索。传统的查询和报表处理

4、只是得到事件发生的结果,并没有深入研究发生的原因,而数据挖掘则主要了解发生的原因,并且以一定的置信度对未来进行预测,用来为决策行为提供有利的支持。数据挖掘的研究融合了多个不同学科领域的技术与成果,使得目前的数据挖掘方法表现出多种多样的形式。从统计分析类的角度来说,统计分析技术中使用的数据挖掘模型有线形分析和非线形分析、回归分析、逻辑回归分析、单变量分析、多变量分析、时间序列分析、最近序列分析、最近邻算法和聚类分析等方法。利用这些技术可以检查那些异常形式的数据,然后,利用各种统计模型和数学模型解释这些数据,解释隐藏在

5、这些数据背后的市场规律和商业机会。知识发现类数据挖掘技术是一种与统计分析类数据挖掘技术完全不同的挖掘技术,包括人工神经元网络、支持向量机、决策树、遗传算法、粗糙集、规则发现和关联顺序等。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术、贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率

6、建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。它是由R.Agrawal等人首先提出的,最经典的关联规则的挖掘算法是Apriori,该算法先挖出所有的频繁项集,然后,由频繁项集产生关联规则,许多关联规则频繁项集的挖掘算法都是由它演变而来的,关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关

7、系,原因之一是它不受只选择一个因变量的限制,关联规则在数据挖掘领域最典型的应用是购物篮分析。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,所挖掘出的关联规则量往往非常巨大,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,对这些关联规则进行有效的评价,筛选出用户真正感兴趣的,有意义的关联规则尤为重要。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关

8、系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。有时进行聚类不是为了将对象相聚在一起而是为了更容易地使某个对象从其他对象中分离出来。聚类分析已被应用于经济分析、模式识别、图像处理等多种领域,尤其在商业上,聚类分析可以帮助市场人员发现顾客群中所存在的不同特征组群。聚类分析的技术关键除了算法的选择之外,就是对样本的度量标准的选择。并非由聚类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。