第2章 数据仓库及其设计ppt课件.ppt

第2章 数据仓库及其设计ppt课件.ppt

ID:58708316

大小:3.74 MB

页数:104页

时间:2020-10-04

第2章 数据仓库及其设计ppt课件.ppt_第1页
第2章 数据仓库及其设计ppt课件.ppt_第2页
第2章 数据仓库及其设计ppt课件.ppt_第3页
第2章 数据仓库及其设计ppt课件.ppt_第4页
第2章 数据仓库及其设计ppt课件.ppt_第5页
资源描述:

《第2章 数据仓库及其设计ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章数据仓库设计2.1数据仓库设计概述2.2数据仓库规划和需求分析2.3数据仓库的建模2.4数据仓库的物理模型设计2.5数据仓库的部署和维护2.6一个简单的数据仓库SDWS设计示例2.1数据仓库设计概述数据仓库设计是建立一个面向企业决策者的分析环境或系统。2.1.1数据仓库设计原则以业务和需求为中心:是指围绕业务方向性需求、业务问题等,确定系统范围和总体框架。以数据来驱动:是指其所有数据均建立在已有数据源基础上,从已存在于操作型环境中的数据出发进行数据仓库设计。2.1.2数据仓库构建模式1.先整体再局部的构建模式:W.H.Inmon模式优点:数据规范化程度高,最小化数

2、据冗余与不一致性;便于全局数据的分析和挖掘。缺点:建设周期长、见效慢;风险程度相对大。2.先局部再整体的构建模式:RalphKimball模式优点:投资少、见效快;在设计上相对灵活;易于实现。缺点:会有一定级别的冗余和不一致性。2.1.3数据仓库设计步骤(1)数据仓库的规划和需求分析。(2)数据仓库的建模。(3)数据仓库物理模型设计。(4)数据仓库的部署。(5)数据仓库的维护。2.2数据仓库规划和需求分析2.2.1数据仓库的规划数据仓库的策略规划包括:明确用户的战略远景、业务目标。确定建设数据仓库的目的和目标。定义清楚数据仓库的范围、优先顺序、主题和针对的业务。定义衡量

3、数据仓库成功的要素。定义精简的体系结构、使用技术、配置、容量要求等。定义操作数据和外部数据源。确定建设所需要的工具。概要性地定义数据获取和质量控制的策略。数据仓库管理及安全。2.2.2数据仓库的需求分析主题分析数据分析环境要求分析2.3数据仓库的建模2.3.1多维数据模型及相关概念多维数据模型将数据看作数据立方体形式,满足用户从多角度多层次进行数据查询和分析的需要而建立起来的基于事实和维的数据库模型。其数据组织采用多维结构文件进行数据存储,并有索引及相应的元数据管理文件与数据相对应。1.粒度(Granularity)粒度是指数据仓库中数据单元的详细程度和级别,确定数据仓

4、库的粒度是设计数据仓库的一个最重要方面。数据越详细,粒度越小级别就越低;数据综合度越高,粒度越大级别就越高。例如,地址数据中“北京市”比“北京市海淀区”的粒度小。在传统的操作型数据库系统中,对数据处理和操作都是在最低级的粒度上进行的。但是在数据仓库环境中应用的主要是分析型处理,一般需要将数据划分为详细数据、轻度总结、高度总结三级或更多级粒度。2.维度(Dimension)维度(简称为维)是指人们观察事物的特定的角度,概念上类似于关系表的属性。例如企业常常关心产品销售数据随着时间推移而变化的情况,这是从时间的角度来观察产品的销售,即时间维;企业也常常关心本企业的产品在不同

5、地区的销售分布情况,这时是从地理分布的角度来观察产品的销售,即地区维。3.维属性和维成员一个维是通过一组属性来描述的,如时间维包含年份、季度、月份和日期等属性,这里的年份、季度等称为时间维的维属性。维的一个取值称为该维的一个维成员,如果一个维是多层次的,那么该维的维成员是在不同维层次的取值组合。例如,一个时间维具有年份、季度、月份、日期四个层次,分别在四个层次各取一个值,就得到时间维的一个维成员,即某年某季某月某日。4.维层次同一维度可以存在细节程度不同的各个值,可以将粒度大的值映射到粒度小的值,这样构成维层次(或维层次结构)或概念分层,即将低层概念映射到更一般的高层概

6、念,概念分层允许在各种抽象级审查和处理数据。例如对于地点维,有“杭州→浙江→中国”的维层次。又例如时间维,可以从年、季度、月份、日期来描述,那么“年份→季度→月份→日期”就是维层次。时间维维属性2014/20152014年二季度2014年4月2014年4月25日维成员维层次5.度量(Measure)或事实(Fact)度量是数据仓库中的信息单元,即多维空间中的一个单元,用以存放数据,也称为事实(Fact)。通常是数值型数据并具有可加性。例如:(日期,商品,地区,销售量)其中,销售量就是一个度量。2.3.2多维数据模型的实现多维数据模型实现方式:关系数据库(RDB)多维数据

7、库(MDDB)两者相结合(HDB)1.关系数据库在基于关系数据库的数据仓库中有两类表,一类是维表,对每个维至少使用一个表存放维的层次、成员等维的描述信息;另一类是事实表,用来存放维关键字和度量等信息。维表和事实表通过主关键字(主键)和外关键字(外键)联系在一起。多维数据立方体各个坐标轴上的刻度以及立方体各个交点的取值都被记录下来,因而数据立方体的全部信息就都被记录了下来。例如,下表是一个关系表的数据组织形式,其中包含按产品和地区两项分类统计的销售量。产品地区销售量电视机华北10电视机华东20电视机华中30电视机华南40电冰箱华北40电冰箱

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。