数据挖掘chapter引言

数据挖掘chapter引言

ID:23401739

大小:220.01 KB

页数:22页

时间:2018-11-06

数据挖掘chapter引言_第1页
数据挖掘chapter引言_第2页
数据挖掘chapter引言_第3页
数据挖掘chapter引言_第4页
数据挖掘chapter引言_第5页
资源描述:

《数据挖掘chapter引言》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章引言本书是一个导论,介绍什么是数据挖掘,什么是数据库中知识发现。书中的材料从数据库角度提供,特别强调发现隐藏在大型数据集中有趣数据模式的数据挖掘基本概念和技术。所讨论的实现方法主要面向可规模化的、有效的数据挖掘工具开发。本章,你将学习数据挖掘如何成为数据库技术自然进化的一部分,为什么数据挖掘是重要的,以及如何定义数据挖掘。你将学习数据挖掘系统的一般结构,并考察挖掘的数据种类,可以发现的数据类型,以及什么样的模式提供有用的知识。除学习数据挖掘系统的分类之外,你将看到建立未来的数据挖掘工具所面临的挑战性问题。1.1什么激发数据挖掘?为什么它是重要的?

2、需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘是信息技术自然进化的结果。进化过程的见证是数据库工业界开发以下功能(图1.1):数据收集和数据库创建,数据管理(包括数据存储和提取,数据库事务处理),以及数据分析与理解(涉及数据仓库和数据挖掘)。例如,数据收集和数据库创建机制的早期开发已成为稍后数据存储和提取、查询和事务处理有效机制开发的必备基础。随着提供查

3、询和事务处理的大量数据库系统广泛付诸实践,数据分析和理解自然成为下一个目标。自60年代以来,数据库和信息技术已经系统地从原始的文件处理进化到复杂的、功能强大的数据库系统。自70年代以来,数据库系统的研究和开发已经从层次和网状数据库发展到开发关系数据库系统(数据存放在关系表结构中;见1.3.1小节)、数据建模工具、索引和数据组织技术。此外,用户通过查询语言、用户界面、优化的查询处理和事务管理,可以方便、灵活地访问数据。联机事务处理(OLTP)将查询看作只读事务,对于关系技术的发展和广泛地将关系技术作为大量数据的有效存储、提取和管理的主要工具作出了重要贡献

4、。自80年代中期以来,数据库技术的特点是广泛接受关系技术,研究和开发新的、功能强大的数据库系统。这些使用了先进的数据模型,如扩充关系、面向对象、对象-关系和演绎模型。包括空间的、时间的、多媒体的、主动的和科学的数据库、知识库、办公信息库在内的面向应用的数据库系统百花齐放。涉及分布性、多样性和数据共享问题被广泛研究。异种数据库和基于Internet的全球信息系统,如WWW也已出现,并成为信息工业的生力军。在过去的三十年中,计算机硬件稳定的、令人吃惊的进步导致了功能强大的计算机、数据收集设备和存储介质的大量供应。这些技术大大推动了数据库和信息产业的发展,使

5、得大量数据库和信息存储用于事务管理、信息提取和数据分析。现在,数据可以存放在不同类型的数据库中。最近出现的一种数据库结构是数据仓库(1.3.2小节)。这是一种多个异种数据源在单个站点以统一的模式组织的存储,以支持管理决策。数据仓库技术包括数据清理、数据集成和联机分析处理(OLAP)。OLAP是一种分析技术,具有汇总、合并和聚集功能,以及从不同的角度观察信息的能力。尽管OLAP工具支持多维分析和决策,对于深层次的分析,如数据分类、聚类和数据随时间变化的特征,仍然需要其它分析工具。图1.1:数据库技术的进化数据丰富,伴随着对强有力的数据分析工具的需求,被描

6、述为“数据丰富,但信息贫乏”。快速增长的海量数据收集、存放在大型和大量数据库中,没有强有力的工具,理解它们已经远远超出了人的能力(图1.2)。结果,收集在大型数据库中的数据变成了“数据坟墓”——难得再访问的数据档案。这样,重要的决定常常不是基于数据库中信息丰富的数据,而是基于决策者的直观,因为决策者缺乏从海量数据中提取有价值知识的工具。此外,考虑当前的专家系统技术。通常,这种系统依赖用户或领域专家人工地将知识输入知识库。不幸的是,这一过程常常有偏差和错误,并且耗时、费用高。数据挖掘工具进行数据分析,可以发现重要的数据模式,对商务决策、知识库、科学和医学

7、研究作出了巨大贡献。数据和信息之间的鸿沟要求系统地开发数据挖掘工具,将数据坟墓转换成知识“金块”。图1.2我们数据丰富,知识贫乏1.2什么是数据挖掘?简单地说,数据挖掘是从大量数据中提取或“挖掘”知识。该术语实际上有点用词不当。注意,从矿石或砂子挖掘黄金称作黄金挖掘,而不是砂石挖掘。这样,数据挖掘应当更正确地命名为“从数据中挖掘知识”,不幸的是它有点长。“知识挖掘”是一个短术语,可能不能强调从大量数据中挖掘。毕竟,挖掘是一个很生动的术语,它抓住了从大量的、未加工的材料中发现少量金块这一过程的特点(图1.3)。这样,这种用词不当携带了“数据”和“挖掘”,

8、成了流行的选择。还有一些术语,具有和数据挖掘类似,但稍有不同的含义,如数据库中知识挖掘、知识提

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。