为InfoSphereWarehouse提供实时数据的高效解决.PDF

为InfoSphereWarehouse提供实时数据的高效解决.PDF

ID:32324801

大小:798.84 KB

页数:16页

时间:2019-02-03

为InfoSphereWarehouse提供实时数据的高效解决.PDF_第1页
为InfoSphereWarehouse提供实时数据的高效解决.PDF_第2页
为InfoSphereWarehouse提供实时数据的高效解决.PDF_第3页
为InfoSphereWarehouse提供实时数据的高效解决.PDF_第4页
为InfoSphereWarehouse提供实时数据的高效解决.PDF_第5页
资源描述:

《为InfoSphereWarehouse提供实时数据的高效解决.PDF》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、为InfoSphereWarehouse提供实时数据的高效解决方案EventPublisher和DataStage的有效结合刘艳2010年7月22日软件工程师IBM杨佑鑫软件工程师IBM数据整合是数据仓库中的关键概念,ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。由于传统的ETL过程中数据抽取是需要加载所有源数据库中的数据,这样对于需要经常进行数据集中的案例,将带来无可忍受的低效率。我们将介绍通过结合InfoSphereReplicationServer和InfoSphereDataStage

2、,实现数据仓库的实时更新,并且仅仅需要抽取更新了的数据。简介信息是现代企业的重要资源,是企业运用科学管理、决策分析的基础,于是企业如何通过各种技术手段,并把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。而ETL则是一个主要的技术手段。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。由于传统的ETL过程中数据抽取是需要加载所有源数据库中的数据,这样对于需要经常进行数据集中的案例,将带来无可忍受的低效率。例如一个有50G数据量的数据库,如果只有0.01%(也就是大约50M)的数据较上次加

3、载有更新,但是为了抽取这部分数据,仍然需要抽取所有50G的数据,这将是非常低效的。在这篇文章中,我们将介绍通过结合InfoSphereReplicationServer和InfoSphereDataStage,实现数据仓库的实时更新,并且仅仅需要抽取更新了的数据。ETL过程简介ETL过程就是数据流动的过程,从不同的数据源流向不同的目标数据集中地。它是构建数据仓库的重要一环,用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。它包涵三个阶段:E(Extract),T(Transform

4、)和L(Load)。• 提取(Extract):从不同的数据库(DB2,oracle,flatfile等)中读取源数据。通过接口提取源数据,例如ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。©版权所有 IBM公司 2010商标为InfoSphereWarehouse提供实时数据的高效解决方案第1页,共16developerWorks®ibm.com/developerWorks/cn/• 转换(Transform):开发者将提取的数据,按照业务需要转换为目标数据结构,并实现汇总。• 装载(Loa

5、d):加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载。InfoSphereReplicationServer简介IBMInfoSphereReplicationServer是一个高速移动大量数据的企业软件应用程序,用于帮助企业连接分布在全球的业务、对客户进行快速响应以及从影响关键数据库系统的问题中恢复。只所以能够高效的提取数据是因为它用可恢复日志来记录数据库里数据的变化,Capture程序负责连续读取数据库的恢复日志并捕获对源数据库更改(指对数据的插入、删除和更新操作),Apply程序负责把这些变化的数据写入到目标数

6、据库中。利用ReplicationServer的这一功能就可从大量的数据量中只提取出较上次更新的数据。ReplicationServer和Eventpublisher的架构InfoSphereReplicationServer中提供了两种不同类型的复制:Q复制和SQL复制。InfoSphereDataEventPublisher捕获“更改的数据”事件并以WebSphereMQ消息的形式发布这些事件,其他应用程序可以使用这些消息来驱动后续处理。SQL复制Capture捕获数据变化后存储在一个临时中间表(stagingtables),a

7、pply程序把这些更新复制到相应的目标表。随着数据量的加大和客户对实时数据复制的要求,Q复制应运而生。它的架构如图1所示:图1.SQL复制架构图Q复制一个高吞吐量低延迟的方案,它不用中间表来存储已经提交的事务性数据,而是捕获对源表的更改并将已提交的数据转换为消息,即用WebShpereMQ消息队列在源和目标数据库间传送数据。它的架构如图2所示:为InfoSphereWarehouse提供实时数据的高效解决方案第2页,共16ibm.com/developerWorks/cn/developerWorks®图2.Q复制架构图Eventp

8、ublisher(EP)不同于Q复制,EP不需要启动apply程序,捕获对源表的更改并将已落实的事务性数据转换为“可扩展标记语言”(XML)格式或定界格式(CSV:comma-separatedvalue)的消息,以供用户直接从接受队

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。