数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术

数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术

ID:39712403

大小:414.00 KB

页数:59页

时间:2019-07-09

数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术_第1页
数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术_第2页
数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术_第3页
数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术_第4页
数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术_第5页
资源描述:

《数据挖掘概念与技术CHAPTER3-数据仓库与OLAP技术》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第3章 数据挖掘的数据仓库与OLAP技术第3章:数据挖掘的数据仓库与OLAP技术什么是数据仓库?多维数据模型数据仓库结构数据仓库实现数据立方体的进一步发展从数据仓库到数据挖掘2什么是数据仓库?有不同的方法定义,但不是严格的.是一个决策支持数据库,它与组织机构的操作数据库分别维护数据仓库系统允许将各种应用系统集成在一起,为统一的历史数据分析提供坚实的平台,支持信息处理.W.H.Inmon的定义:数据仓库是面向主题的(subject-oriented),集成的(integrated),时变的(time-variant),和非易失的(nonvolat

2、ile)数据集合,支持管理决策过程建立数据仓库(Datawarehousing):构造和使用数据仓库的过程3数据仓库—面向主题的围绕重要的主题(如顾客、产品、销售等)组织.关注决策制定者的数据建模与分析,而不是日常的操作和事务处理.数据仓库排除对于决策过程无用的数据,提供特定主题的简明视图.4数据仓库—集成的通过将多个异种的数据源集成在一起,而构造比如,关系数据库,一般文件,联机事务记录使用数据清理和数据集成技术.确保命名约定,编码结构,属性度量等的一致性例如,饭店价格:货币种类,税,是否含早餐,等.当数据装入数据仓库时,数据将被转换.5数据仓

3、库—时变的数据仓库的时间跨度显著地比操作数据库长.操作数据库数据:当前值数据.数据仓库数据:从历史的角度提供数据(例如,过去5-10年)数据仓库中的每个键结构显式或隐式地包含时间元素,但是,操作数据的键可能包含,也可能不包含“时间元素”.6数据仓库—非易失的从操作环境转换过来的数据物理地分离存放.数据的更新不在数据仓库环境中出现.不需要事务处理,恢复,和并发控制机制只需要两种数据存取操作:数据的初始化装入和数据访问.7数据仓库和异种DBMS传统的异种数据库集成:在异种数据库上建立一个包装程序(wrappers)或中介程序(/mediators)

4、查询驱动的方法当查询提交给一个站点时,使用元数据词典将查询转换成所涉及的异构站点上的相应查询,查询的结果被集成为一个全局回答的集合需要:复杂的信息过滤,对资源的竞争数据仓库:更新驱动的,高性能来自异种信息源的数据被预先集成并存储在数据仓库中,直接用于查询和分析8数据仓库VS.操作数据库OLTP(on-linetransactionprocessing,联机事务处理)传统关系DBMS的主要任务涵盖日常操作:购买,库存,银行,制造,工资单,注册,记帐,等.OLAP(on-lineanalyticalprocessing,联机分析处理)数据仓库系统的

5、主要任务数据分析和决策制定上提供服务不同的特点(OLTPvs.OLAP):用户和系统的面向性:顾客vs.市场数据内容:当前的,细节的vs.历史的,合并的数据库设计:ER+应用vs.星型+主题视图:当前的,局部的vs.进化的,集成的访问模式:更新vs.只读的,但是复杂的查询9OLTPvs.OLAP10为什么建立分离的数据仓库?为了两个系统的高性能DBMS—目的是OLTP:存取方法,索引,并发控制,恢复数据仓库—目的是OLAP:复杂的OLAP查询,多维视图,统一.不同的功能和不同的数据:缺少数据:决策支持需要历史数据,通常操作数据库并不维护这些数据

6、数据统一:决策支持需要将来自异种数据源的数据统一(聚集,汇总)数据质量:不同的数据源通常使用不同的数据表示,编码,和应当遵循的格式11第2章:数据挖掘的数据仓库与OLAP技术什么是数据仓库?多维数据模型数据仓库结构数据仓库实现从数据仓库到数据挖掘数据立方体的进一步发展12由表和电子数据表到数据方数据仓库基于多维数据模型,多维数据模型将数据视为数据方(datacube)形式数据方(如sales)可以将数据建模,并允许由多个维进行观察维表,如item(item_name,brand,type),或time(day,week,month,quarte

7、r,year)事实表包含度量(如dollars_sold)和每个相关维表的键在数据仓库的文献中,一个n-D基本立方体称作基本方体(basecuboid).最顶部的0-D方体存放最高层的汇总,称作顶点方体(apexcuboid).方体的格形成数据方.13立方体:方体的格alltimeitemlocationsuppliertime,itemtime,locationtime,supplieritem,locationitem,supplierlocation,suppliertime,item,locationtime,item,supplier

8、time,location,supplieritem,location,suppliertime,item,location,supplier0-D(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。