《数据仓库原理》PPT课件

《数据仓库原理》PPT课件

ID:37042537

大小:1.93 MB

页数:94页

时间:2019-05-10

《数据仓库原理》PPT课件_第1页
《数据仓库原理》PPT课件_第2页
《数据仓库原理》PPT课件_第3页
《数据仓库原理》PPT课件_第4页
《数据仓库原理》PPT课件_第5页
资源描述:

《《数据仓库原理》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章数据仓库原理本章学习目标:掌握数据仓库的定义,四个基本特征掌握数据集市的概念,与数据仓库区分掌握数据仓库的体系结构掌握数据仓库中数据组织方式掌握数据处理过程掌握元数据的概念、元数据管理的原理第2章数据仓库原理2.1数据仓库定义2.2数据集市2.3数据仓库体系结构2.4数据组织结构和形式2.5数据抽取E、转换T和装载L(ETL)2.6元数据管理2.1数据仓库定义WilliamH.Inmon:数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理人员的决策。数据仓库之父--BillInmonW

2、illiamH.Inmon:WilliamH.Inmon是世界公认的“数据仓库之父”,是数据仓库及其相关技术网站www.billinmon.com的合作伙伴,是“企业信息工厂”的创造者之一。他一直致力于数据库和数据仓库技术方面的研究,在数据管理和数据仓库技术方面以及数据处理的管理方面撰写了40多本著作,发表过600多篇学术论文,并且经常应邀在技术和学术会议上演讲。四个基本特征数据仓库的数据是面向主题的数据仓库的数据是集成的数据仓库的数据是非易失的数据仓库的数据是随时间不断变化的面向主题主题(Subject):特定的数据

3、分析领域与目标。面向主题:为特定的数据分析领域提供数据支持。面向主题为特定数据分析领域提供的数据与传统数据库中的数据是有不同的。传统数据库中的数据是原始的、基础的数据,而特定分析领域数据则是需要对它们作必要的抽取、加工与总结而形成。数据仓库是面向分析、决策人员的主观要求的,不同的用户有不同的要求,同一个用户的要求也会随时间而经常变化,因此,数据仓库中的主题有时会因用户主观要求的变化而变化的。面向主题示例例:一个面向事务处理的“商场”数据库系统,其数据模式如下采购子系统:订单(订单号,供应商号,总金额,日期)订单细则(订

4、单号,商品号,类别,单价,数量)供应商(供应商号,供应商名,地址,电话)销售子系统:顾客(顾客号,姓名,性别,年龄,文化程度,地址,电话)销售(员工号,顾客号,商品号,数量,单价,日期)面向主题示例库存管理子系统:领料单(领料单号,领料人,商品号,数量,日期)进料单(进料单号,订单号,进料人,收料人,日期)库存(商品号,库房号,库存量,日期)库房(库房号,仓库管理员,地点,库存商品描述)人事管理子系统:员工(员工号,姓名,性别,年龄,文化程度,部门号)部门(部门号,部门名称,部门主管,电话)面向主题示例上述数据模式基本

5、上是按照企业内部的业务活动及其需要的相关数据来组织数据的存储的,没有实现真正的数据与应用分离,其抽象程度也不够高。如果按照面向主题的方式进行数据组织,首先应该抽取主题,即按照管理人员的分析要求来确定主题,而与每个主题相关的数据又与有关的事务处理所需的数据不尽相同。主题一:商品商品固有信息:商品号,商品名,类别,颜色等商品采购信息:商品号,供应商号,供应价,供应日期,供应量等商品销售信息:商品号,顾客号,售价,销售日期,销售量等商品库存信息:商品号,库房号,库存量,日期等主题二:供应商供应商固有信息:供应商号,供应商名,

6、地址,电话等供应商品信息:供应商号,商品号,供应价,供应日期,供应量等主题三:顾客顾客固有信息:顾客号,顾客名,性别,年龄,文化程度,住址,电话等顾客购物信息:顾客号,商品号,售价,购买日期,购买量等面向主题在每个主题中,都包含了有关该主题的所有信息,同时又抛弃了与分析处理无关或不需要的数据,从而将原本分散在各个子系统中的有关信息集中在一个主题中,形成有关该主题的一个完整一致的描述。面向主题的数据组织方式所强调的就是要形成一个这样一致的信息集合不同的主题之间也有重叠的内容,但这种重叠是逻辑上的,而不是物理存储上的重叠;

7、是部分细节的重叠,而不是完全的重叠。面向主题每个主题所需数据的物理存储:多维数据库(MDDB—Multi-DimensionalDataBase)用多维数组形式存储数据。关系数据库。用一组关系来组织数据的存储,同一主题的一组关系都有一个公共的关键字,存放的也不是细节性的业务数据,而是经过一定程度的综合形成的综合性数据。集成的数据是分散的;由于事务处理应用分散、蜘蛛网问题、数据不一致问题、外部数据和非结构化数据。数据仓库中的数据是为分析服务的,而分析需要多种广泛的不同数据源以便进行比较、鉴别,因此数据仓库中的数据必须从多

8、个数据源中获取,这些数据源包括多种类型数据库、文件系统以及Internet网上数据等,它们通过数据集成而形成数据仓库中的数据。集成的集成的方法:统一:消除不一致的现象综合:对原有数据进行综合和计算需要考虑的问题:数据格式计量单位数据代码含义混乱数据名称混乱非易失的数据仓库中的数据是经过抽取而形成的分析型数据,不具有原始性,主要供企

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。