数据挖掘技术与综述.doc

数据挖掘技术与综述.doc

ID:56217823

大小:55.50 KB

页数:5页

时间:2020-03-21

数据挖掘技术与综述.doc_第1页
数据挖掘技术与综述.doc_第2页
数据挖掘技术与综述.doc_第3页
数据挖掘技术与综述.doc_第4页
数据挖掘技术与综述.doc_第5页
资源描述:

《数据挖掘技术与综述.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、0《基于数据挖掘技术的企业竞争情报系统的研究》D第二章内容数据挖掘(DataMining,简称DM),也可以称为数据库屮的知识发现(KnowledgeDiscoverDatabase,简称KDD),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据屮,提取隐含在其小的、人们事先不知道的、但又是潜在有用的信息和知识的过程。实际上这是一个模式提取的过程,主要基于人工智能、机器学习、统计学等技术,高度自动化的分析企业原有的数据,做出归纳行的推理,从屮挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减

2、少风险,做出正确的决策。2」数据挖掘的定义数据挖掘至今有多种定义,其屮得到公认的是[02]:数据挖掘是从数据小识别出有效的、新颖的、潜在有用的、以及最终可理解的模式的高级过程。其屮,数据是指一个有关事实F的集合,它是用来描述事务有关方而的信息,是我们进一•步发现知识的原材料。[02]苏新宁等.数据挖掘理论与技术.北京:科学文献出版社,2003.2.2数据挖掘的分类本文从数据挖掘的功能模型和数据挖掘对象两个方面进行分类。(1)按照功能模型分类数据挖掘模式按功能可分为两大类:预测型(Predictive)和描述型(Desc

3、riptive)模式。在预测型模式屮,用来预测的称为独立变量,耍预测的称为相关变量或H标变量。预测模型包括分类模式、回归模式和时间序列模式;描述模式包括聚类模式、关联模式和序列模式。前者乂称为有监督学习,后者称为无监督学习。(2)按照挖掘对象分类数据挖掘对象可分为吋间序列数据、空间数据、文本数据、多媒体数据等。2.3数据挖掘的过程数据挖掘处理过程一般有几个阶段,这几个处理阶段分别是数据准备、数据选择、数据预处理、数据缩减、数据挖扌屈H标确定、挖掘算法确定、数据挖扌屈、模式解释及知识评价。(1)数据准备:根据用户的要求从

4、数据胯屮提取与数据挖掘相关的数据,数据•挖掘将要从这些数据屮进行知识提取。(1)确定数据挖掘的H标:根据用户的要求,确定所要完成的数据挖掘是发现何种类型的知识,确定知识模式及挖掘结果最终应达到的精度、范閘等。(2)知识发现算法:根据确定数据挖掘的H标及各种学习算法的特点设计挖掘算法的详细步骤。详细设计算法的过程屮,可以根据确定的数据挖掘FI标和挖掘结果调整算法,返回数据准备阶段,在前次的挖扌屈结果基础上重新筛选数据集。(3)数据挖掘:使用选择的算法对指定的数据集进行知识的提取。但由于数据量很小,本模型在这一阶段的时间消

5、耗将大大减少。⑸模式解释和知识评价:对挖掘结果进行一致性、有效性、新颖性、合理性检查,与确定数据挖掘的H标进行比较。如果结果与预期H标偏差较大,返回算法设计阶段,调整或重新设计挖掘算法;如果偏差较小,返回算法设计阶段,对挖掘算法进行调整;如果结果理想,返回数据准备阶段,扩大数据集,重新开始一次挖掘过程。图2-1数据挖掘过程2・4数据挖掘的方法(1)归纳学习法归纳学习法是H前重点研究的方向。从采用的技术上看,分为两大类:信息论方法和集合论方法。1)信息论方法(决策树方法)信息论方法是利用信息论的原理建立决策树。在知识工程

6、领域,决策树是一-种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而比较易于理解。2)集合论方法集合论方法是开展较早的方法。近年来,由于粗糙集理论的发展使集合论方法得到了迅速的发展。这类方法屮包括:覆盖正例排斥反例方法(典型的方法有AQ系列方法)、概念树方法和粗糙集方法。(2)仿生物技术仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法己经形成了独立的研究体系,它们在数据挖掘屮也发挥了巨人的作用。1)神经网络方法它是模拟了人脑神经兀结构,以MP模型和Hebb学习规则为基础的,建

7、立了三大类多种神经网络模型(前馈式网络、反馈式网络、自组织网络)。神经网络的知识体现在网络连结的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或者是累加计算)。当需要从复杂或不精确数据屮获得概念比较困难的吋候,利用神经网络技术特别有效。2)遗传算法这是模拟生物进化过程的算法。它由繁殖(选择)、交叉(重组)、变异(突变)三个基木算子组成。这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法己在优化计算和分类机器学

8、习方面发挥了显著的效果。(3)公式发现在工程和科学数据库(由实验数据组成)屮对若干数据项(变量)进行一定的数学运算,求得相应的数学公式。(4)统计分析方法这是利用统计学原理对数据库小的数据进行分析的方法,统计分析既是一门独立的学科,也作为数据挖掘的一大类方法。(5)模糊数学方法由于模糊性是客观的存在,而且系统的复杂性愈高,其精确化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。