数据仓库的设计B

数据仓库的设计B

ID:39515335

大小:333.31 KB

页数:45页

时间:2019-07-04

数据仓库的设计B_第1页
数据仓库的设计B_第2页
数据仓库的设计B_第3页
数据仓库的设计B_第4页
数据仓库的设计B_第5页
资源描述:

《数据仓库的设计B》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第4章数据仓库的设计与开发(二)14.2数据仓库开发4.3数据仓库技术与开发的困难内容提要24.2数据仓库开发4.2.1数据仓库开发过程4.2.2数据质量与数据清洗4.2.3数据粒度与维度建模34.2.1数据仓库开发过程4.2.2.1分析与设计阶段4.2.1.2数据获取阶段4.2.1.3决策支持阶段4.2.1.4维护与评估阶段4需求分析数据装载信息查询概念设计逻辑设计物理设计数据抽取数据转换知识探索数据仓库增长数据仓库维护数据仓库评估决策支持数据获取分析与设计维护与评估数据仓库开发过程54.2.1.1分析与设计阶段1.需求分析2.概念设计3.逻辑设计4.物理设计61.需求分析确定决策主题域分析

2、主题域的商业维度分析支持决策的数据来源确定数据仓库的数据量大小分析数据更新的频率确定决策分析方法72.概念设计建立概念模型:对每个决策主题与属性以及主题之间的关系用E-R图模型表示。E-R图将现实世界表示成信息世界,便利向计算机的表示形式进行转化。83.逻辑设计将概念模型(E-R图)转换成逻辑模型,即计算机表示的数据模型。数据仓库数据模型一般采用星型模型。星型模型由事实表、维表组成。94.物理设计对逻辑模型设计的数据模型确定物理存储结构和存取方法。数据仓库的星型模型在计算机中仍用关系型数据库存储。物理设计还需要进行存储容量的估计;确定数据存储的计划;确定索引策略;确定数据存放位置以及确定存储分

3、配。104.2.1.2数据获取阶段(1)数据抽取(2)数据转换(3)数据装载111.数据抽取对数据源的确认,确定数据抽取技术,确认数据抽取频率,按照时间要求抽取数据。由于源系统的差异性,如计算机平台、操作系统、数据库管理系统、网络协议等的不同造成了抽取数据的困难。122.数据转换数据格式的修正字段的解码单个字段的分离信息的合并变量单位的转化时间的转化数据汇总133.数据装载初始装载:第一次装入数据仓库。增量装载:根据定期应用需求装入数据仓库。完全刷新:完全删除现有数据,重新装入新的数据。144.2.1.3决策支持阶段(1)信息查询(2)知识探索151.信息查询信息查询者使用数据仓库能发现目前存

4、在的问题。创建数据阵列将相关的数据(每月的数据)放在同一个物理位置上。预连接表格对于两个或多个表格共享一个公用链。16预聚集数据以每天为基础存储数据。在一周结束时,以每周为基础存储数据(即累加每天的数据)。月末时,则以每月为基础存储数据。聚类数据聚类将数据放置在同一地点,这样可以提高对聚类数据的查询。172.知识探索发现的问题并找出原因。创建一个单独的探索仓库,不影响数据仓库的常规用户。同时采用“标识技术”进行数据压缩,提高数据分析速度。使用一些模型帮助决策分析,例如客户分段、欺诈监测、信用分险、客户生存期、渠道响应、推销响应等模型。通过模型的计算来得出一些有价值的商业知识。18采用数据挖掘工

5、具来获取商业知识。例如,得到如下一些知识:哪些商品一起销售好?哪些商业事务处理可能带有欺诈性?高价值客户的共同点是什么?获取的知识为企业领导者提供决策支持,达到保留客户,减少欺诈,提高公司利润具有重要作用。194.2.1.4维护与评估阶段(1)数据仓库增长(2)数据仓库维护(3)数据仓库评估201.数据仓库增长数据仓库建立以后,随着用户的不断增加,时间的增长,用户查询需求更多,数据会迅速增长。在数据仓库的开发过程中需要适应数据仓库不断增长的现实。212.数据仓库维护适应数据仓库增长的维护数据增长的处理工作有:去掉没有用的历史数据;根据用户使用的情况,取消某些细节数据和无用的汇总数据,增加些实用

6、的汇总数据。22正常系统维护数据仓库的备份和恢复。备份数据为系统恢复提供基础,一旦系统出现灾难时,利用备份数据可以很快将数据仓库恢复到正常状态。233.数据仓库评估(1)系统性能评定(2)投资回报分析(3)数据质量评估24(1)系统性能评定硬件平台是否能够支持大数据量的工作和多类用户、多种工具的大量需求?软件平台是否是用一个高效的且优化的方式来组织和管理数据?是否适应系统(数据和处理)的扩展?25(2)投资回报分析定量分析:计算投资回报率(ROI),即收益与成本的比率。定性分析:企业与客户之间关系状态?对机会快速反应能力如何?改善管理能力如何?26(3)数据质量评估①数据是准确的。②数据符合它

7、的类型要求和取值要求。③数据具有完整性和一致性。④数据是清晰的且符合商业规则。⑤数据保持时效性并不能出现异常。274.2.2数据质量与数据清洗1.数据质量问题2.数据污染产生的原因3.数据清洗281.数据质量问题(1)字段中的虚假值。(2)数据值缺失。(3)不一致的值。(4)违反常规的不正确值。(5)一个字段有多种用途。(6)标法不唯一。292.数据污染产生的原因(1)系统转换(2)数据老化(3)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。