数据仓库概念学习

数据仓库概念学习

ID:25176620

大小:49.50 KB

页数:5页

时间:2018-11-18

数据仓库概念学习_第1页
数据仓库概念学习_第2页
数据仓库概念学习_第3页
数据仓库概念学习_第4页
数据仓库概念学习_第5页
资源描述:

《数据仓库概念学习》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据仓库学习研究信息处理技术的发展,使得各类数据、信息急剧增长,给数据的传输、存储都带来了许多新的问题。人们希望能够看到所有数据和信息的综合情况,而这些数据与事务处理有许多不能被原有数据结构描述,不能被现有应用系统综合使用。针对这一问题,人们设想专门为业务的统计分析建立一个数据中心,它的数据来自联机的事务处理系统、异构的外部数据源、脱机的历史业务数据等,这个数据中心就叫数据仓库。数据仓库技术的应运而生,成为信息技术领域非常热门的话题之一。数据仓库技术的提出,建立了一种体系化的数据存储环境,将分析决策所需要的大量数据从传统的操作环境中分离出来,使分散、不一致的操作

2、数据转换成集成、统一的信息。1.数据仓库概念数据仓库是一个面向主题的、集成的、与时间相关、稳定的数据集合,以便支持管理决策。“面向主题”的数据仓库要求进行数据库设计,而一些数据库设计者忽略了这一重要环节,根本没有进行正规的数据库设计。他们简单地把原有数据库或者并非专为数据仓库设计的现有决策支持系统(DSS)中的数据复制到数据仓库中。这样建立的不是良构的、可独立维护的主题数据库。在数据仓库设计过程中,数据以所代表的业务内容划分,而不是以应用划分。“数据集成性”意味着数据仓库中的数据采用统一的格式和编码方式。在命名协议、关键字、关系、编码和翻译中的一致性问题必须通过

3、精心的设计取得。“与时间相关”意味着数据仓库中的数据大都与时间相关。因此,数据仓库中的数据组织方式要便于按时间段计算和提取数据。“稳定的”是指数据仓库中的数据不进行实时更新。通常数据是以每夜、每周或每月为周期进行升级,这一升级的过程不是简单的拷贝,而是要经过复杂的提取、概括、聚集和过滤等操作过程。数据一旦进入数据仓库,就不允许随便更新。2.数据仓库的内涵从数据仓库的基本概念及产生背景看来,数据仓库具有以下内涵:(1)数据仓库应支持多种数据源,不仅仅是数据库,还应有各种数据文件、文本文件、应用程序等。(2)数据仓库中存放的应该不仅是供分析使用的数据,还应有在一定激

4、发条件下能主动起作用的处理规则、算法、甚至是过程。(3)传统的物理数据仓库方法并非唯一的选择,应根据需求的具体情况,建立虚拟数据仓库的解决方案。(4)数据仓库中的数据并不完全是原始数据的简单归并和搬家,而应该是增值和统一。因此“汇总并统一”是数据仓库的必须内涵描述。3.数据仓库的基本组成数据仓库DW(DataWarehouse)既是一种结构和方法,又是一种技术。各种信息从不同信息源提取出来,然后将其转换成公共的数据模型并和仓库中已有的数据集成,当用户向仓库查询时,需要的信息已准备就绪,数据冲突、表达不一致等问题已经得到解决,这样,决策查询更容易、更有效。作为一种

5、满足数据仓库管理要求的特殊的数据库系统,DW具体包含以下五个基本功能部分:数据定义:主要完成数据仓库的结构和环境的定义,包括:定义数据仓库中数据库的模式、数据仓库的数据源和从数据源提取数据的一组规则或模型。数据提取:数据提取部分负责从数据源提取数据,并对获得的源数据(sourcedata)进行必要的加工处理,使其成为数据仓库可以管理的数据格式和语义规范。数据管理:数据管理由一组系统服务工具组成,负责数据的分配和维护,支持数据应用。数据分配完成获取数据的存储分布及分发到多台数据库服务器,维护服务完成数据的转储和恢复、安全性定义和检测等。另外,用户直接输入系统的数据

6、也由该部分完成。数据应用:数据仓库的数据应用除了一般的直接检索性使用外,还应当能够完成比较常用的数据表示和分析,如图表表示、统计分析、结构分析等。对于涉及到众多数据的综合性较强的分析,可以借助专业数据分析工具。在客户机/服务器体系结构下,这部分功能可以放在客户端来完成,以便充分利用客户机上丰富的数据分析软件。这部分主要包括了报表生成、OLAP、数据挖掘、决策支持工具应用等方面,其中OLAP和数据挖掘是近年来研究的重点和热点。4.数据仓库体系结构数据仓库是储存、管理信息数据的一种组织形式,其物理实质仍是计算机存储数据的系统,只是由于使用目的不同,其存储的数据在量和

7、质以及前端分析工具上与传统信息系统有所不同。数据仓库按照功能分为以下几部分。1、元(Meta)数据。元数据是数据仓库的核心,是关于数据的数据,是关于数据和信息资源的描述信息。它通过对数据的内容,质量,条件和其他特征进行描述和说明,帮助人们有效地定位、评论、比较、获取和使用相关数据。2、源数据。指分布在不同的应用系统中,存储在不同的平台和不同的数据库中的大量的数据信息,是数据仓库的物质基础。3、数据变换工具。为了优化数据仓库的分析性能,源数据必须经过变换以最适宜的方式进入数据仓库。变换主要包括提炼、转换。数据提炼主要指数据的抽取,并对抽取数据删去不需要的运行信息,

8、检查数据的完整性和相容性

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。