数据ETL工具通用框架设计.pdf

数据ETL工具通用框架设计.pdf

ID:58225517

大小:277.16 KB

页数:5页

时间:2020-04-29

数据ETL工具通用框架设计.pdf_第1页
数据ETL工具通用框架设计.pdf_第2页
数据ETL工具通用框架设计.pdf_第3页
数据ETL工具通用框架设计.pdf_第4页
数据ETL工具通用框架设计.pdf_第5页
资源描述:

《数据ETL工具通用框架设计.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第23卷第12期计算机应用VoI.23,No.122003年12月ComputerAppIicationsDec.,2003文章编号:1001-9081(2003)12-0096-03数据ETL工具通用框架设计周宏广,周继承,彭银桥,龙思锐(中南大学信息材料与计算科学研究所,湖南长沙410083)摘要:异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。关键词:数据ETL;数据集成;数据

2、清洗中图分类号:TP311文献标识码:AGeneralFrameDesignforETLToolsZHOUHong-guang,ZHOUJi-cheng,PENGYin-giao,LONGSi-rui(InstituteofInformationMaterialandComputingScience,CentralSouthUniuersity,ChangshaHunan410075,China)Abstract:IntheprocessofimportingoperationaIdataintodatawarehouse,twoIargestchaIIengeswiIIbeco

3、nfronted.Oneistheintegrationofheterogeneousmuti-datasourcesandtheotherisdirtydatadetectionandsoIution.Inthispaper,thegeneraIframeforETLtooIsisdesignedforpratice.GeneraIdataaccessinterfaceisusedforshieIdingthedifferenceamongaIIkindsofdatasourcesanddatacIeaningisthemainpurposeintheframe.Aneffec

4、tivesoIutionisgivenforeIiminatingmuti-datasourcesschemecoIIisionandinstancedatacoIIision.Keywords:ETLprocessgdataintegrationgdatacIeaning图形化方式来生成用于数据转换装载的程序代码,即直观高1引言效地生成一个专用的数据转换器,从而减少了70%~80%的[3]建设数据仓库需要集成来自多种业务数据源中的数据,工作量。这些数据源可能处在不同的硬件和操作系统之上,在编码、命名、数据类型、语义等方面都存在较大的冲突,因此如何向数据仓库中加载这些数量大、种类

5、多的数据,已成为建立数据仓[1]库所面临的一个关键问题。如果其中的信息不准确,那么这个数据仓库便会形同虚设,所以将操作数据导入数据仓库的过程,必须经过精心的规划和设计,并建立一个相对独立的系统来完成数据转换工作,这个系统一般称作数据ETL工[2]图1数据ETL概念模型具。数据ETL即DataExtraction、DataTransformation、DataLoadin(g数据抽取、转换和加载,如图1所示),此名称准确揭2数据ETL工具通用框架设计示了它的用途和工作流程,其主要功能包括:2.1数据ETL面临的挑战1)数据的抽取:从不同的网络、不同的操作平台、不同的将数据从各种业务

6、处理系统导入数据仓库是一个复杂的数据库及数据格式、不同的应用中抽取数据;系统工程,数据ETL在此面临两个主要的挑战,其一为多数2)数据的转换:数据的转化(数据的合并、汇总、过滤、转据源的异构问题,其二为脏数据的检测与解决。换等)、数据的重新格式化和计算、关键数据的重新构建和数可以将待集成数据源的异构性分为四个层次:系统、语据总结、数据定位;[4]法、结构和语义。其中语义异构是最复杂的,将语义作为3)数据的加载:跨网络、跨操作平台,将数据按照物理数底层信息和数据转换的基础与依据,可以提高数据转换的可据模型定义的表结构装入目标数据库中。能性和准确性,这正是数据仓库所需要的,然而由于待

7、处理的ETL工具的本质是数据转换器,它提供一种从源到目标数据是海量的,因此要实现集成后的语义一致往往非常困难。系统转换数据的方法。这个功能传统上由程序员来处理,需数据仓库需要保证数据的正确性、一致性、完整性和可靠要针对每一种数据源编写不同的数据抽取和装载的程序,效[5]性(Correctness、Consistency、CompIeteness、ReIiabiIity),然而率极其低下。ETL工具提供一种通用的解决方案,它一般用现存操作数据存在很多的问题,容易造成脏数据,主要原因

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。