数据仓库与数据挖掘期末复习

数据仓库与数据挖掘期末复习

ID:39212927

大小:29.30 KB

页数:26页

时间:2019-06-27

数据仓库与数据挖掘期末复习_第1页
数据仓库与数据挖掘期末复习_第2页
数据仓库与数据挖掘期末复习_第3页
数据仓库与数据挖掘期末复习_第4页
数据仓库与数据挖掘期末复习_第5页
资源描述:

《数据仓库与数据挖掘期末复习》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1.数据仓库的概念和特点p11定义:一个面向主题的、集成的、非易失的且随时间变化的数据集合,用来支持管理人员作出决策。特性:面向主题的、集成的、非易失的、随时间不断变化的。1、面向主题的:数据仓库以一个奇特或组织机构中固有的业务主题作为处理的主体,是从整体的、全局的角度来衡量这些主题在企业中的作用。2、集成的(最重要):数据仓库必须将不一致的数据进行有效的集成,使之在数据仓库中有一致性的表示形式。一致性问题只是集成所包含的一部分工作,另外还需要根据主题进行有效的数据组织。3、非易失性:一旦操作型数据进入数据仓库,只要数据未超过数据仓库的数据存

2、储期限,通常不对数据进行更新操作,而只进行查询操作。即不进行一般意义上的更新,而且与操作型数据相比,更新频率要低得多,对时间的要求更为宽松。4、随时间不断变化的(数据因时而变的特点)《与操作型数据比较的,书上14页》:(1)数据仓库中的数据的时间期限要远远长于操作型环境中的数据的时间期限。操作型环境一般60-90天,数据仓库5-10年。26⑵操作型环境中的数据库含有数据的“当前值”,其准确性访问是有效的,其当前值能被更新,数据仓库中的数据只是一系列某一时刻所生成的数据的复杂快照。⑶操作型环境中的数据键码结构可能含有也可能不含有;数据仓库的键码

3、结构总是包含某时间元素。2.数据仓库中的关键概念14外部数据源:就是从系统外部获取的同分析主题相关的数据。数据抽取:是数据仓库按分析的主题从业务数据库抽取相关数据的过程。数据清洗:所谓“清洗”是指在放入数据仓库之前将错误的、不一致的数据予以更正或删除,以免影响DSS决策的正确性。数据转换:各种数据库产品所提供的数据类型可能不同,需要将不同格式的数据转换成统一的数据格式,称为数据转换。数据加载:是指把清洗后的数据装入数据仓库的过程。数据加载策略包括数据加载周期和数据追加策略。数据加载周期要综合考虑经营分析需求和系统加载代价,对不同业务的数据采用

4、不同的加载周期,但必须保持同一时刻业务数据的完整性和一致性。元数据:元数据是关于数据的数据。元数据位于数据仓库的上层,而且能够记录数据仓库中对象的位置。26数据集市:面向企业中的某个部门(主题)而在逻辑上或物理上划分出来的数据仓库中的数据子集成为数据集市。数据粒度:粒度是数据仓库的数据单位中保存数据的细化程度或综合成都的级别。细化程度越高,粒度级别就越低。相反,细化程度越低,粒度级别就越高。数据仓库的数据组织结构:早期细节级(通常用于备用的、批量化的存储)、当前细节级、轻度综合数据级(数据集市)以及高度综合数据级。一旦数据过期,就由当前细节级

5、进入早期细节级。经综合后的数据由当前细节级进入轻度综合数据级,然后由轻度综合数据级进入高度综合数据级。数据粒度的两种形式:第一种形式的粒度是对数据仓库中的数据的综合程度高低的一种度量,另一种形式即样本数据库,是针对数据挖掘的,样本数据库是以一定的采样率(或按数据的重要程度的不同)从细节档案数据或轻度综合数据中抽取的一个子集。数据分割:分割是指将数据分割到各自的物理单元中以便能分别进行处理,提高数据处理效率,数据分割后形成的数据单元称为分片。数据库数据仓库面向应用数据是详细面向主题数据是综合的或提炼的26保持当前数据数据是可更新对数据的操作是重

6、复的操作需求是事先可知的一个操作只存取一条记录数据非冗余操作较频繁所查询的是原始数据事务处理需要当前数据鲜有复杂的计算支持事务处理保存过去的和现在的数据数据是不可更新对数据的操作是启发式的操作需求是临时决定的一个操作存取一个数据集合数据常冗余操作相对不频繁所查询的是经过加工的数据决策分析需要过去的和现在的数据需做复杂的计算支持决策分析操作型数据分析型数据细节的在存取瞬间,数据是准确的可更新的综合的或提炼的历史数据不可更新26事先可知操作需求生命周期符合SDLC(软件开发生命周期)对性能的要求较高某一时刻操作一个单元事务驱动面向应用一次操作的数

7、据量较小支持日常操作操作需求事先不可知完全不同的生命周期对性能的要求较为宽松某一时刻操作一个集合分析驱动面向分析一次操作的数据量较大支持管理需求4.数据仓库的数据追加与方法数据追加:数据仓库中的数据初装完成后,再向数据仓库输入数据的过程。数据仓库的内容仅限于上一次向数据仓库输入数据后在OLTP数据库中发生变化的数据。捕捉变化数据的常用途径如下:(1)时标方法:26如果数据含有时标,对于插入或更新的数据记录,在记录中设置相应的时标,那么只需根据时标判断哪些数据是上次追加后变化的即可。但并非所有数据库中的数据都含有时标。(2)DELTA文件1.D

8、ELTA文件是由应用生成的,记录应用所改变的所有内容。2.利用DELTA文件效率很高,它避免扫描整个数据库。但因应用系统常由不同的软件开发商开发,生成DELTA文件

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。