ibm大数据的仓库解决方案设计(简)

ibm大数据的仓库解决方案设计(简)

ID:29208506

大小:232.00 KB

页数:24页

时间:2018-12-17

ibm大数据的仓库解决方案设计(简)_第1页
ibm大数据的仓库解决方案设计(简)_第2页
ibm大数据的仓库解决方案设计(简)_第3页
ibm大数据的仓库解决方案设计(简)_第4页
ibm大数据的仓库解决方案设计(简)_第5页
资源描述:

《ibm大数据的仓库解决方案设计(简)》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、1.1技术架构设计成功地实施一个仓库项目,通常需要很长的时间。如果仅仅着眼于短期成果,缺乏整体考虑,采用一种不健全的体系结构,不仅会增加系统开发和维护成本,而且必将对发挥数据仓库的作用造成不利的影响。因此一个综合,清晰的远景规划及技术实施蓝图将在整个项目的实施过程中起到重要作用。技术架构必须具有高度先进性和可扩展性,以满足业务需求的不断变化。一个完整的数据仓库系统包括数据源、数据转换区、数据仓库、数据集市、和数据展现层,通过数据仓库不同层次之间的加工过程,实现财政从数据资产向信息资产的转化过程。在不同层次之间的数据加工过程需要通过ETL技术实现,并

2、对整个过程进行有效的元数据管理。基于对需求的理解,基于财政部的信息系统框架模型基础之上的财政决策支持系统技术架构如下图所示:如上图所示意,通过搭建灵活的、可扩展技术架构,在保持数据集市稳定性的同时,可以不断增加数据源,增加应用数据层、增加应用层,满足不断增加的业务分析应用需求。采用DW+ODS的数据仓库体系结构,使用全新的ETL模式对ODS进程每日数据更新,按周或月周期对数据仓库执行ETL过程。使用COGNOSBI做为前端的查询分析和数据挖掘工具,可满足各种日常数据处理操作,从即时简单报表查询到多维多级数据分析和挖掘,都能够在统一COGNOSBI平

3、台上完成。1.1.1数据源和数据接口数据源指存储于财政各个业务系统的业务数据,以及未来的财政监管和外部数据。数据仓库系统将整合来自于这些系统的数据,形成财政统一的、一致的基础数据集,并提供给不同的应用主题形成数据集市。各个系统在体系架构、开发平台、数据定义、接口标准都会存在不同程度的差异;另外由于业务的不断变化,历史数据与当前数据之间的含义也可能存在不同,因此数据整合必须充分考虑源系统在技术和数据方面存在的差异。数据仓库系统将采用文本文件的方式从源系统获取数据。每个源系统会就与数据仓库之间就传输数据接口文件(IFF)的格式和方法制定标准,称之为接口

4、规范。每个数据源会首先通过各自的数据导出程序(Extractor)生成接口文件存储在各自的文件缓冲区内。这个Extractor负责各自范围内导出数据的完备性和一致性,包括:1)依照各自的业务规则确定增量数据的导出方法2)保证导出文件的格式符合接口规范的要求3)保证导出文件的传输时间的及时性4)保证接口文件的数据质量,不错数、不丢数、不多数1.1.2财政数据仓库财政数据仓库(EDW),存储和管理来自源数据系统的数据,按照数据模型分主题进行组织和存放,包括当期的和较长时间的历史数据。数据仓库的核心是企业级数据模型的规划和设计,是所有应用的基础。接下来我

5、们分别对EDW每个数据区域做详细介绍。1)接口文件区接口文件区是存储和处理接口文件的区域,如前面章节所述,接口文件区在系统下按照特定的目录结构组织起来。用一些系统命令和工具来管理。对每个目录按照其特定的用途设定对不同用户的访问权限,比如谁能读,谁能写,谁能改等。2)细节数据暂存区SSA(SORStagingArea)SSA的主要目的是支持把接口文件的装载到数据库,对其进行验证和处理,然后把数据整合到SOR内。验证的方法主要是将新转载的数据与SOR内已有的数据进行查找和比较。SSA内数据结构的设计原则是最大限度的利用接口文件的数据结构,尽量降低实体的

6、个数,同时很好的支持后续的ETL过程。3)细节数据SOR(SystemOfRecord)SOR是基于模型开发的一套符合3NF范式规范的表结构。SOR存储了数据仓库内最细节层次的数据,按照不同的主题域进一步分分类组织。此模型是整个数据仓库数据模型的核心,其设计为具有足够的灵活性,以能够应对添加更多的数据源,支持更多分析需求,同时也能够支持进一步升级和更新。为了能够在数据仓库内记录数据的变化以支持历史趋势和变化分析,SOR在一些关键的属性值上会跟踪变化(比如客户的信用度、状态等)。跟踪变化的常见方法就是利用渐变维的Type2方法来处理记录,在表内增加一

7、条记录变化数据的新记录。同时为了降低不必要的存储空间的浪费(相同数据的重复存储),我们可以把实体中动态变化的属性与静态不变或只需覆盖不需跟踪变化的属性分开。比如对用户,我们可以用一张表存放不变化的用户静态属性,用另一张表存放经常变化的用户行为属性,当跟踪用户行为的变化时我们只需在用户行为表内添加记录就行了,没必要把没有发生变化的用户静态表内的数据也复制一份。4)汇总数据区Summary汇总数据区是为了方便查询和后续多维数据的更新,创建一些常用的中间汇总表,以提高性能和降低后续ETL工作的复杂性。由于SOR是高度规范化的数据,因此要完成一个查询需要大

8、量的关联操作;同时数据集市中的数据粒度往往要比SOR高很多,对要成生数据集市所需数据也需要大量的汇总计算,因此如果我们把常

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。