数据仓库术语

数据仓库术语

ID:39391239

大小:18.50 KB

页数:5页

时间:2019-07-02

数据仓库术语_第1页
数据仓库术语_第2页
数据仓库术语_第3页
数据仓库术语_第4页
数据仓库术语_第5页
资源描述:

《数据仓库术语》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库术语数据仓库术语2010年08月23日  商业智能的技术体系(BI)主要有数据仓库(DW)、在线分析处理(OLAP)以及数据挖掘(DM)三部分组成。  数据仓库是商业智能的基础,许多基本报表可以由此生成,但它更大的用处是作为进一步分析的数据源。所谓数据仓库(DW)就是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程。多维分析和数据挖掘是最常听到的例子,数据仓库能供给它们所需要的、整齐一致的数据。  在线分析处理(OLAP)技术则帮助分析人员、管理人员从多种角度把从原始数据中转化出来、能够真正为

2、用户所理解的、并真实反映数据维特性的信息,进行快速、一致、交互地访问,从而获得对数据的更深入了解的一类软件技术。  数据挖掘(DM)是一种决策支持过程,它主要基于AI、机器学习、统计学等技术,高度自动化地分析企业原有的数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。  数据仓库:数据仓库是一个支持管理决策的数据集合。数据是面向主题的、集成的、不易丢失的并且是时间变量。数据仓库是所有操作环境和外部数据源的快照集合。它并不需要非常精确,因为它必须在特定的时间基础上从操

3、作环境中提取出来。  数据集市:数据仓库只限于单个主题的区域,例如顾客、部门、地点等。数据集市在从数据仓库获取数据时可以依赖于数据仓库,或者当它们从操作系统中获取数据时就不依赖于数据仓库。  事实:事实是数据仓库中的信息单元,也是多维空间中的一个单元,受分析单元的限制。事实存储于一张表中(当使用关系数据库时)或者是多维数据库中的一个单元。每个事实包括关于事实(销售额,销售量,成本,毛利,毛利率等)的基本信息,并且与维度相关。在某些情况下,当所有的必要信息都存储于维度中时,单纯的事实出现就是对于数据仓库足够的信息。我们稍后讨论有关缺无

4、事实的情况。  维度:维度是用来反映业务的一类属性,这类属性的集合构成一个维度。例如,某个地理维度可能包括国家、地区、省以及城市的级别。一个时间维度可能包括年、季、月、周、日的级别。一个立方体数据结构(Cube)是由很多数据维(Dimension,简称"维")组成,每一维都表示某一类的数据。维就是相同类数据的集合。数据维里的数据都限制在某一问题所界定的领域之内。在MicrosoftOLAPService里的立方体数据结构可以包含1-64个数据维。在立方体结构(Cube)里至少要包含一个数据维,在一个数据维(Dimension)里又至

5、少包含一个层次(Hierarchy),而一个层次又至少要包含一个级别(Level)。在每一个级别里,可以拥有多个成员(Member)。在事实表关键字与数据维成员交叉的地方,每一个成员至少有一个数据值出现在该位置上。  级别:维度层次结构的一个元素。级别描述了数据的层次结构,从数据的最高(汇总程度最大)级别直到最低(最详细)级别(如大分类-中分类-小分类-细分类)。级别仅存在于维度内。级别基于维度表中的列或维度中的成员属性。  数据清洗:对数据仓库系统无用的或者不符合数据格式规范的数据称之为脏数据。清洗的过程就是清除脏数据的过程。  

6、数据采集:数据仓库系统中后端处理的一部分。数据采集过程是指从业务系统中收集与数据仓库各指标有关的数据。  数据转换:解释业务数据并修改其内容,使之符合数据仓库数据格式规范,并放入数据仓库的数据存储介质中。数据转换包括数据存储格式的转换以及数据表示符的转换(如产品代码到产品名称的转换)。  联机分析处理(OLAPOnlineAnalyticalProcessing):OLAP是一种多维分析技术,用来满足决策用户在大量的业务数据中,从多角度探索业务活动的规律性、市场的运作趋势的分析需求,并辅助他们进行战略发展决策的制定。按照数据的存储方

7、式分OLAP又分为ROLAP(ROLAP即关联性(Relational)的OLAP。使用数据仓库中的表格来存储集合(Aggregations),从相关的结构中收集数据。对立方体数据结构的存储,使用了标准的相关技术。该模式的优点是不需额外的存储空间存放信息,利用既存的资料仓储空间即可,缺点为反应时间较慢,较适合应用在不常使用且量大的情况,如历史性资料。)、MOLAP(MOLAP即多维性(Multidimensional)的OLAP。MOLAP采取了对查询性能和存储空间进行优化的多维结构方式,来存储立方体结构里的数据和结构集合(Aggr

8、egations)。在这种模式下,NULL值不被存储,并且由于执行了存储空间的优化,数据在存储时都进行了压缩。因此,该模式的优点为反应时间较快,缺点为存储空间需求大,适合应用在使用频率高、量小且反应时间要求快的情况。可以用于离线状态,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。