数据仓库3-数据仓库中的数据及组织.ppt

数据仓库3-数据仓库中的数据及组织.ppt

ID:51743148

大小:2.64 MB

页数:44页

时间:2020-03-30

数据仓库3-数据仓库中的数据及组织.ppt_第1页
数据仓库3-数据仓库中的数据及组织.ppt_第2页
数据仓库3-数据仓库中的数据及组织.ppt_第3页
数据仓库3-数据仓库中的数据及组织.ppt_第4页
数据仓库3-数据仓库中的数据及组织.ppt_第5页
资源描述:

《数据仓库3-数据仓库中的数据及组织.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第3讲数据仓库中的数据及组织1数据仓库产生的原因数据处理的类型操作型处理(OLTP):数据的收集、整理、存储、查询和增、删、改操作。分析型处理(OLAP):数据的再加工,往往要访问大量的历史数据,进行复杂的统计分析。2数据仓库的四个基本特征:数据仓库的数据是面向主题的(SubjectOriented);数据仓库的数据时集成的(Integrate);数据仓库的数据不可更新(Non-Volatile);数据仓库的数据时随时间不断变化(TimeVariant)的。数据仓库的基本概念3数据仓库的体系结构4数据库和数据仓库两层体系结构(DB-DW)并不能涵盖企业所

2、有的数据处理要求。某些应用既不是纯粹的联机事务处理,又不是高层决策分析。什么是ODS5ODS的定义及特点定义:是用于支持企业日常的全局应用的数据集合。ODS中的数据具有4各基本特征:面向主题的、集成的、可更新的、数据是当前或接近当前的。ODS中只存放当前或接近当前的数据,并且可以进行联机修改,包括增、删、改等操作。6DW与ODS面向不同的用户、不同的需求,都有其不可替代的作用,彼此间不是相互包含的,同时两者又可以相互结合、相互补充。DBDBDBODSDW应用操作型环境分析型环境三层体系结构73.1数据仓库中的数据组织3.2数据仓库中数据的追加3.3数据仓

3、库中的元数据8数据仓库中存储两类数据:业务数据和元数据3.1数据仓库中的数据组织9数据仓库的体系结构10数据仓库中存储的数据3.1数据仓库中的数据组织后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级元数据11源数据经过抽取、转换后,首先进入当前细节级,再根据具体需要进行进一步的综合,从而进入轻度综合级乃至高度综合级。老化的数据进入早期细节级。3.1数据仓库中的数据组织12数据组织的实例3.1数据仓库中的数据组织数据仓库层后备数据后备数据后备数据高度综合级轻度综合级当前细节级早期细节级2015每“月”电话呼叫情况信息2015每“天”电话呼叫

4、情况信息2015每个电话呼叫情况信息2010~2014电话呼叫明细情况信息131)数据粒度数据粒度是数据仓库的重要概念。存在两种形式,形式一:粒度是对数据仓库中数据的综合程度高低的一个度量。粒度越小,细节程度越高,综合程度越低。14不同的情况组织数据的粒度会不同。如:电信通话细节数据:记录每一次通话情况。轻度综合数据:记录顾客每天的通话情况。高度综合数据:记录顾客每月的通话情况。1)数据粒度15超市购物细节数据:记录顾客每一次购物细节。轻度综合数据:记录每个顾客每次的购物金额,或每种商品每一天的销售数据。高度综合数据:记录每个顾客每月或每年的购物金额,或

5、每种商品每月或每年的销售数据。1)数据粒度161)数据粒度数据粒度的确定是业务分析、硬件、软件的一个折中。在数据仓库中多重粒度是必不可少的171)数据粒度数据粒度是数据仓库的重要概念。存在两种形式,形式二:样本数据库,其粒度是根据采样率的高低来划分的。盖洛普民意测验是一种观点的民意测验,其特点是用简单的随机取样法并且试图把偏差度保持在最低。182)数据分割数据分割是数据仓库中的另一个重要概念。它是指将数据分布到各自的物理单元中,以便能分别独立处理,提高数据分析效率。数据分割后的数据单元称为分片。19MySQLMySQLMySQLMySQLMySQLMyS

6、QLMySQLMySQLMySQLMySQLMySQLMySQLMySQL202)数据分割数据分割的标准可以根据实际情况来确定,通常选择:按日期、地域、业务领域等来进行。212)数据分割数据分割的方法垂直分割:垂直分割就是把一个表垂直分成两部分。水平分割:水平分割就是把表按行分成两部分。22AppIDMEMBE_IDINFO1pavarotti17…11pavarotti17…MySQLIDMEMBE_IDINFO4test1234…5test1234…IDMEMBE_IDINFO3abcd…9abcd…20abcd…MySQLMySQLCobarPro

7、xyAppAppAppAppAppAppApp2)数据分割232)数据分割一个简单的分割例子。年份健康保险生命保险事故保险2008分片1分片2分片32009分片4分片5分片62010分片7分片8分片9243.1数据仓库中的数据组织3.2数据仓库中数据的追加3.3数据仓库中的元数据253.2数据仓库中数据的追加当数据仓库的数据初装完成以后,再向数据仓库输入(导入)数据的过程称为数据追加。如何能够确切地感知究竟哪些数据是在上一次追加过程以后新生成的,这项工作称为变化数据的捕捉。26需要对源数据库的数据模式加以修改,加上时标字段。对新插入或更新的数据记录,在记

8、录中加更新时的时标。1)时标法27由应用生成的文件,用来记录应用所改变的数据内容

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。