数据挖掘算法.研究与应用

数据挖掘算法.研究与应用

ID:32004579

大小:1.51 MB

页数:53页

时间:2019-01-30

数据挖掘算法.研究与应用_第1页
数据挖掘算法.研究与应用_第2页
数据挖掘算法.研究与应用_第3页
数据挖掘算法.研究与应用_第4页
数据挖掘算法.研究与应用_第5页
资源描述:

《数据挖掘算法.研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘算法研究与应用1数据挖掘技术概论1.1数据挖掘技术的发展历程数据挖掘是信息技术自然演化的结果。在20世纪60年代,数据收集和数据库创建早期阶段,可以提供数据存储、查询检索和简单的事务处理。到70年代,数据库系统的研究和发展从层次和网状系统发展到关系数据库系统(RDBMS),用户可以通过查询语言、用户界面、优化的查询处理和事务处理,方便、灵活地访问数据。这时的联机事务处理(OLTP)对丈量数据的有效存储、检索和管理做出了巨大贡献。80年代中期,出现了数据仓库,这是一种多个异种数据源在单个站

2、点以统一的模式组织存储,可以支持管理决策。包括数据清理、数据集成和联机分析处理(OLAP)。OLAP具有汇总、合并和聚集的功能,并可以从不同的角度观察信息。80年代末90年代初,产生了数据库中的知识发现(KnowledgeDiscoveryinDatabase),而数据挖掘(DataMining)是它其中的一个基本步骤。但习惯上人们采用数据挖掘的广义概念,用其来代替数据库中知识发现这个长的术语。本文也采用这一说法。下面的表l,l是数据挖掘的基本历程图。1.2数据挖掘的定义数据挖掘是一种决策支持过

3、程,它主要基于人工智能、机器学习、统计学技术,高度自动化地分析企业原有的数据,作出归纳性的推理,从中挖掘出潜在模式,预测客户的行为,帮助企业的决策者调整市场策略以减少风险,作出正确的决策。它并不是一项全新的技术,它的出现与发展有其自身的必然性。随着公司数据库的猛增,特别是数据仓库的出现,原有的数据库工具已无法满足用户的需求,用户不仅需要一般的查询和报表工具,更需要的是那些能够帮助他们从浩如烟海的数据中提取出高质量信息(预测性)的工具,数据挖掘的出现和发展正好符合了这一潮流。它也是当前数据库和信息

4、决策领域的最前沿研究方向之一。数据挖掘就是从大量的、不完整的、有噪声的数据集中,提取出隐含在其中的有效的、新颖的、潜在有用的和最终可理解的模式的非平凡过程。其中模式是一个用语言来表示的表达式,它可以用来描述数据集的某个子集,表达式作为一个模式要求它比对数据子集的枚举要简单,即数据挖掘算法研究与应用时间问题利用技术利用产品作用特点数据收集过去3年里计算机、磁带IBM,提供静态(20世纪60公司的总收和磁盘等CDC等的、历史性年代)入是多少?的数据信息关系数据库IBM,可以在记录数据访问2002年5

5、(RDB),Oracle,(20世纪70月,华北地SQL,开放数级提供动态区的销售总据库互连Sybase,的、历史性年代)Informix,的数据信息额是多少?(0DBC),Microsoft等0LTP等2002年5月,华北地联机分析处理Pilot,在各种层决策支持区的销售总(OLAP),多Comshare,次,提供动(20世纪80额是多少?维数据库,空态的、可以年代)北京由此得间数据库,数Microstrategy,回溯的数据出什么结据仓库等Cormos等信息论?IBM(Intelligent

6、不但能在各1:个冠广粥Miner),种层次上提数据挖掘的销售情况多处理器计算(20世纪90将会怎么机,高级算法,SASEnterprise供动态的、年代)样?为什数据仓库等海Miner,回溯的数据量数据库Clementine.信息,还可么?MSMiner,以提供预测Pilot等性的信息表1.1数据挖掘发展历程图(Tablel-1DevelopmentalCourseofDataMining)所用的描述信息量要少。过程在数据挖掘中通常指多阶段的处理,如数据清理、数据集成、模式搜索、模式评估、知识表

7、示以及反复的修改求精。要求这个过程是非平凡的,就是说要有一定程度的智能性、自动性等。而有效性是指挖掘的模式对于新的数据仍保持有一定的可信度。新颖性要求模式是新的。潜在有用性指挖掘的知识将来有实际效用。最终可理解性是指挖掘的知识能被用户理鼹,这方面主要体现在简洁性上。新颖性、潜在有用性和最终可理解性综合起来就是兴趣性。3数据挖掘算法研究与应用1.3数据挖掘的研究内容随着数据挖掘研究的逐步深入,数据挖掘的研究主要由三个方面来支持:数据库、人工智能和数理统计。目前的主要研究内容包括基础理论、算法研究、

8、数据仓库、可视化技术、定型定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及w曲数据挖掘等。1.4数据挖掘的任务1.4.1数据总结数据总结的目的是对数据进行压缩提取,给出它的简洁概括的描述。传统的数据总结方法是计算出数据库的各个字段上的求和值、计数、平均值、方差值等统计值,或者用直方图、饼图等图形方法来表示。而数据挖掘希望能从数据概化(把数据库中的有关数据从低层次抽象到高层次上的过程)的角度来讨论数据总结。因为数据库中的数据所包含的信息总是最原始、最基本的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。