数据仓库与数据挖掘

数据仓库与数据挖掘

ID:39711296

大小:415.00 KB

页数:29页

时间:2019-07-09

数据仓库与数据挖掘_第1页
数据仓库与数据挖掘_第2页
数据仓库与数据挖掘_第3页
数据仓库与数据挖掘_第4页
数据仓库与数据挖掘_第5页
资源描述:

《数据仓库与数据挖掘》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第12章 数据仓库与数据挖掘基本概念数据仓库定义数据仓库是一个面向决策主题的、集成的、时变的、非易失、以读为主的数据集合。数据仓库系统的分类Web数据仓库;并行数据仓库;多维数据仓库;压缩数据仓库等。OLAP定义OLAP是针对某个特定的主题进行联机数据访问、处理和分析,通过直观的方式从多个维度、多种数据综合程度将系统的运营情况展现给用户。面向决策主题的数据仓库围绕一些主题,排除对于决策无用的数据,提供特定主体的简明视图。集成的构造数据仓库是将多个异种数据源集成在一起,确保命名约定,编码结构,属性度量等一致性。时变的数据存储从历史的角度提供信息.在数据仓库,隐式或显式地包含时间元素

2、。非易失的数据仓库总是物理地分离存放数据;由于这种分离,数据仓库不需要事务处理,恢复和并发控制。通常数据仓库只需要两种数据访问:数据的初始化装入和数据访问。以读为主的数据仓库中的数据主要是提供决策进行查询,一般不一定都需要即时更新,可以定期刷新或按需刷新。数据仓库基本特性数据仓库项目流程管理及系统性能管理和监控OLTP数据源数据仓库数据集市数据采集及整合数据的映射规则、模型。。。(元数据管理)数据展现及决策生产财务结算外部地区分析总量分析市场分析ETL数据分析、DM终端用户终端用户数据仓库体系结构数据仓库的结构早期细节级当前细节级轻度综合级数据集市高度综合级元数据操作型转换数据仓

3、库中的几个重要概念ETLETL(Extract/Transformation/Load)—用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。元数据关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。DataMart数据集市--小型的,面向部门或工作组级数据仓库。OperationDataStore操作数据存储—ODS是能支持企业日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。四个基本特点:面向主

4、题的(Subject-Oriented)、集成的、可变的、当前或接近当前的。粒度数据仓库的数据单元中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。分割结构相同的数据可以被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。数据仓库中的几个重要概念(续)操作数据库与数据仓库的区别操作数据库系统的主要任务是联机事务处理OLTP数据仓库在数据分析和决策方面为用户提供服务,这种系统称为联机分析处理OLAP基本数据模式星型模式日期维表TimeIDDayMonthYear销售事实表TimeIDProductIDRegionIDSale

5、sQuantity产品维表ProductIDProductNameClassIDClassNameCategoryIDCategoryName地区维表RegionDCityProvinceCountry基本数据模式(续1)雪花模式销售事实表TimeIDProductIDRegionIDSalesQuantity日期维表TimeIDdayMonth产品维表ProductIDProductNameClassIDClassName地区维表RegionIDCityProvince月表MonthYear类别表ClassIDCategoryIDCategoryName省份表ProvinceC

6、ountry基本数据模式(续2)多维模型Cube(D1,D2,…,Dn,M1,M2,…,Mm)数据仓库的主要应用信息处理支持查询和基本的统计分析,并使用表或图进行报告。分析处理支持基本的OLAP操作,在汇总的和细节的历史数据上操作。数据挖掘支持知识发现,包括找出隐藏的模式和关联,构造分析模型,进行分类和预测,并用可视化工具提供挖掘结果.OLAP发展背景60年代,关系数据库之父E.F.Codd提出了关系模型,促进了联机事务处理(OLTP)的发展(数据以表格的形式而非文件方式存储)。1993年,E.F.Codd提出了OLAP概念,认为OLTP已不能满足终端用户对数据库查询分析的需要,

7、SQL对大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提出的需求。因此,E.F.Codd提出了多维数据库和多维分析的概念,即OLAP。OLTP数据OLAP数据原始数据导出数据细节性数据综合性和提炼性数据当前值数据历史数据可更新不可更新,但周期性刷新一次处理的数据量小一次处理的数据量大面向应用,事务驱动面向分析,分析驱动面向操作人员,支持日常操作面向决策人员,支持管理需要什么是OLAP?定义

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。