数据仓库与数据挖掘算法比较

数据仓库与数据挖掘算法比较

ID:8843565

大小:21.46 KB

页数:4页

时间:2018-04-09

数据仓库与数据挖掘算法比较_第1页
数据仓库与数据挖掘算法比较_第2页
数据仓库与数据挖掘算法比较_第3页
数据仓库与数据挖掘算法比较_第4页
资源描述:

《数据仓库与数据挖掘算法比较》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据仓库与数据挖掘算法比较一、数据仓库随着处理信息量的不断加大,企业需要多角度处理海量信息并从中获取支持决策的信息,面向事务处理的操作型数据库就显得力不从心,面向主题集成大量数据的数据仓库技术产生。数据仓库因其面向主题性,集成性,稳定性和时变性,不仅在数据的集成,存储上效果好,在从操作系统提取信息和支持系统造作者的前端工具上更是充分利用了数学严谨的逻辑思维和统计学知识,以及先进的信息技术,使企业的信息利用更有价值。数据仓库按照特定的方法(ETL)从数据源中提取数据,以特定主题作为维度,利用特定的

2、算法集成数据,给数据用户提供实时查询,最终集成有效信息供决策者使用。数据仓库是个过程而不是一个项目,是一个解决方案而不是一个产品。 数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受,数据仓库是一个面向主题的(Subject Oriented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理

3、决策。数据仓库系统以数据仓库为核心,通过数据分析与报表模块的查询和分析工具(OLAP、决策分析、数据挖掘)完成对信息的提取,以满足决策的需要。数据仓库主要由数据源、数据仓库、业务数据仓库、数据分析与报表、数据管理、元数据管理、传输和基础结构几部分构成:l数据源是数据仓库中的数据来源,它主要来自操作型环境的数据库,包括一些产品数据、遗留数据、外部来源数据等。l数据管理:数据库中的数据在进入数据仓库以前,必须经过规范化处理,数据管理模块根据在数据中所描述的映射关系和各种整理规则,把来自不同数据源的数

4、据转换到数据仓库中,对数据进行清洁、增强、变换、和加载的处理并且根据在元数据中所描述的较验规则和专家知识,消除数据的不一致性和不合理性。l目录信息:它通过提供一整套用来维护和观察仓库元数据的工具来实现技术用户和业务用户访问和利用数据仓库系统的能力。目录信息的主要元素有元数据管理员、技术元数据、业务元数据及信息导航。l数据集市和数据商场:数据集市和数据商场是为满足特定的数据需求而创建的数据仓库。它可以看作是全局数据仓库的一个子集,是对部门级的应用而建立的数据仓库。l分析与报表:要使数据仓库发挥其真

5、正的作用,必须要有一个强有力的分析工具。数据分析与报表部分是从大量的数据中提取出原来未知的数据间相互关系,找出数据间潜在的模式,发现经营者可能忽略的信息,并为企业做出前摄的、基于知识的决策。它包括报表生成具、OLAP、数据挖掘、决策支持工具。这里比较重要的是OLAP和数据挖掘。OLAP建立在客户/服务器结构之上,支持多维数据分析,OLAP是由用户驱动的,在用户的指导下验证分析家设定一些假设。数据挖掘应用在数据上,并产生一些假设,当用户使用数据挖掘工具来挖掘数据时,是挖掘工具来进行开发。例如:分析

6、家假设那些高负债和低收入的人有信用风险,他们可以用各种方式验证和反验证这些假设;而数据挖掘工具可以用来发现给予信用的风险因素,比较可能会发现具有高负债和低收入的人有信用风险,它还会发现一种分析家们难以置信的模式,如负债/收入与年龄所预示的风验。l元数据管理:元数据定义为“关于数据的数据”,元数据代表定义数据仓库对象的任何东西,无论是一个表、一个列、一个查询、一个商业规则,或者是数据仓库内部的数据转移。元数据基本有四类:第一类是关于数据仓库潜在数据来源的信息;第二类是关于数据模型的信息;第三类是业

7、务数据与仓库数据结构间的映射;第四类元数据是仓库中信息的使用情况。l传输和基础结构:传输层使用了刷新与复制技术、数据传输、传送网络以及中间件等构件,在硬件/软件平台间架起了必要的通信桥。其中刷新与复制技术包括传播和复制系统、数据库网关内定义的复制工具、数据仓库指定的产品;数据传输和传送网络包括网络协议、网络管理框架、网络操作系统、网络类型;客户/服务器代理和中间件包括数据库网关、面向消息的中间件、对象请求代理。概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企

8、业决策所需信息。数据仓库也常常被看作一种体系结构,通过将异种数据源中的数据集成在一起而构造,支持结构化和启发式查询、分析报告和决策制定。数据仓库系统是多种技术的综合体。在整个系统中,数据仓库居于核心地位,是数据挖掘的基础,是整个系统发挥作用的关键。根据上面的讨论,我们把建立数据仓库看作构造和使用数据仓库的过程。数据仓库的构造需要数据集成、数据清理、和数据统一。利用数据仓库常常需要一些决策支持技术。这使得“知识工人”(例如,经理、分析人员和主管)能够使用数据仓库,快捷、方便地得到数据的总体视图,根

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。