数据仓库期末复习总结

数据仓库期末复习总结

ID:17880012

大小:47.00 KB

页数:4页

时间:2018-09-08

数据仓库期末复习总结_第1页
数据仓库期末复习总结_第2页
数据仓库期末复习总结_第3页
数据仓库期末复习总结_第4页
资源描述:

《数据仓库期末复习总结》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、自然抽取的缺点:①数据缺乏可信性(原因:数据无时间基准,数据算法上的差异,抽取的多层次问题,外部数据问题,无公共起始数据源);②生产率低下(多个数据来源导致数据定位复杂,数据处理过程复杂);③无法将数据转换为信息(面临众多未集成的遗留系统,没有存储足够的能够满足DSS分析员需求的历史数据)多重粒度:图幅的比例尺大小,投影方式,数据采集的精度,数据的时间空空间分辨力,系统功能等来合理划分不同的粒度。确定粒度的级别:①合理推测粒度级别。②预测不同结构体系的需求。数据仓库与OLAP:OLAP应用多维数据集和数据聚集技术对数据仓库中的数据进行组织和汇总,用联机分析和可视化工具对这些数

2、据迅速地进行评价。数据挖掘:数据挖掘:从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。常用的数据挖掘的方法:大多属于数学统计方法或人工智能中的机器学习算法以及人工神经网络/遗传算法:概念/类描述,关联规则挖掘,序列模式分析,分类分析,聚类分析,异常点检测Apriori算法有两个性能瓶颈:①多次扫描事物数据库,需要很大的I/O负载。②可能产生庞大的候选集。对象间距离的计算:①明可夫斯基距离。②二次型距离。③余弦距离。④二元特征样本的距离度量。聚类分析的算法:划分法、层次法、密度法、网格法、模型法OLAP特性:快速性、可分析性、多维性、信息性不用审计

3、的原因:①原先在数据仓库中没有的数据会突然出现。②当需要审计能力时,数据进入数据仓库的时间标定过程会发生急剧变化。③当需要审计能力时,数据仓库的备份和恢复限制会发生急剧变化。④在仓库中审计数据会使仓库中数据的粒度处于最低级别上。原始数据与导出数据的区别:原始数据/操作型数据:面向应用,详细的,在访问瞬间是准确的,为日常工作服务,可更新,重复运行,处理需求预先可知,生命周期符合SDLC,对性能要求高,一次访问一个单元,事物处理驱动,就操作性数据更新责任来说更新控制是一个主要关心的问题,高可用性,整体管理,非冗余性,静态结构可变的内容,一次处理的数据量小,支持日常操作,访问频繁导

4、出数据/DSS型数据:面向主题,概要的或精化的,代表过去的数据和快照,为管理者服务,不更新,启发式运行,处理需求事先不知道,完全不同的生命周期,对性能要求宽松,一次访问一个集合,分析处理驱动,无更新控制问题,宽松的可用性要求,以子集管理,总是存在冗余,结构灵活,一次处理数据量大,支持管理需求,访问很少或不多数据集市与数据仓库的关系:数据仓库:一个面向主题的,集成的,非易失的,随时间变化的用来支持决策人员决策的数据集合。数据集市:为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据。关系:①所以数据集市的结构都依赖于数据仓库中粒度化的数据。②数据集结构一般是星型模型

5、并且包含事实表和维度表。③任何数据集市的数据结构与其他数据集市的都不同。④试图将任何一个数据集市转变为数据仓库都不具有意义。数据如何从数据仓库到达数据集市?周期性的转移;对于数据仓库中的数据,必须经过选择、访问、重组才能适合数据集市的要求;对于数据仓库中的大量细节数据需要进行多种不同的计算;重要问题在于:访问多少数据和刷新频率。LOTP与LOAP的区别:随着数据库系统的广泛应用,数据库系统记录和处理的数据越来越多,及时地记录和处理企业的各种业务数据,这些系统称为联机事务处理(OLTP)系统。数据库技术的广泛应用和技术的发展,人们已经不再满足于仅仅用数据库系统来记录企业的业务活

6、动数据和对数据的简单处理,人们需要对企业活动的数据进行各种分析,以便发现企业业务趋势,这些系统称为联机分析处理(OLAP)系统。区别:OLTP:数据库原始操作,细节性数据,当前数据,经常性更新数据,一次性处理的数据量少,对相应时间要求高,用户量大,面向操作人员支持日常操作,面向应用事物驱动OLAP:数据库导出数据或数据仓库数据,综合性数据,历史性数据,不可更新但可周期性刷新数据,一次性处理的数据量多,相应时间合理,用户量少,面向决策人员支持管理需要,面向分析分析驱动空间数据仓库:空间数据仓库(SDM)是集成的、面向主题的、相对稳定的、反映时间变化和地理空间变化的空间数据存储,

7、以支持各级管理人员基于空间数据的分析和决策。关键技术:①支持空间信息的空间数据仓库模型的研究。②面向海量空间信息的数据存储策略。③支持空间数据导航的元数据机制。④面向海量信息高效检索的空间索引机制。⑤联机分析处理OLAP技术。数据仓库建设时的逆规范化:数据模型处理的输出是一系列表,每个表包含关键字和属性。设计生产的许多小表进行连接运算,会造成I/O性能的急剧下降。较合理的方法是将这些表物理合并,使得I/O代价最小化。手段:①创建数据数组。②引入冗余数据。③当数据访问频率相差悬殊时,将数据作进一步分离。④

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。