通用ETL工具的研究与设计.pdf

通用ETL工具的研究与设计.pdf

ID:51200268

大小:19.36 MB

页数:57页

时间:2020-03-20

通用ETL工具的研究与设计.pdf_第1页
通用ETL工具的研究与设计.pdf_第2页
通用ETL工具的研究与设计.pdf_第3页
通用ETL工具的研究与设计.pdf_第4页
通用ETL工具的研究与设计.pdf_第5页
资源描述:

《通用ETL工具的研究与设计.pdf》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、通用ETL工具的研究与设计ResearchandDesignofaUniversalETLTool孙安健导师朱扬勇教授指导小组成员熊赞副教授刘卉讲师通fflETL工具的研究与设计0录目录ivAbstractV第一章绪论1l.i研究背景和意义11.2ETL技术简介21.2.1ETL的一般模型21.2.2ETL的重要性21.2.3ETL工具的功能31.3本文研究工作41.4论文组织4第二章相关技术与国内外研究现状62.1数据仓库62.1.1数据仓库的概念和特征62.1.2数据仓库的发展历程62.1.3数据仓库的重要性72.2元廣嫌82.2.1元数据概述82.

2、2.2ETL元数据82.2.3元数据的重要性102.3数据质量和数据清洁102.3.1数据质量102.3.2数据清洁112.4JDBC技术122.5XML技术132.6ETL.产品概述132.7/J、结f15第三章通用ETL工具的分析和研究163.1异构数据源分析研究163.1.1数据源的分类163.1.2数据类型的转换163.1.3海量数据的读取173.2元数据分析研究17通fflETL工a的矶究与设计tl录33可视化分析研究183.4数据转换功能分析研究193.5管理和调度分析研究213.5.1ETL作业管理和调度213.5.2ETL节点调度

3、223.6可扩展性分析研究223.6.1数据源的可扩展性223.6.2转换组件的可扩展性233.7小结23第四章通用ETL工具的设计244.1设计@标244.2设计思想254.2.1系统设计组成254.2.2客户端设计254.2.3服务器端设计264.3总体架构274.3.1数据访问模块设计274.3.2任务设计模块设计284.3.3任务运行模块设计304.3.4元数据设计模块设计334.4主要技术难点及解决方案344.4.1.异构数据源访问344.4.2.数据类型转换354.4.3.数据库读写性能354.4.4.组件的抽象化364.5小结37

4、第五章通用ETL工具的实现385.1数据访问模块385.2任务设计模块405.2.1表达式编辑器405.2.2表达式组件415.2.3更新策略组件425.3元数据管理模块435.3.1数据源和数据目标元数据43通用ETL工具的研究.1j+设计目录5.3.2转换节点元数据445.3.3控制节点元数据45第六章总结和展望466.1论文总结466.2未来工作展望46参48P#^50mmsiin通用ETL工具的研究y设计摘要摘要数据仓库能有效的把大量分散和异构的数据集成到统一的环境中以提供决策型数据访问,提高企业的数据资源利用能力,在现代企业的信息化建设中起着越来越

5、重要的作用。而一个高质量的ETL过程则是建设数据仓库的关键环节。利用ETL工具可以对异构数据源中的业务数据抽取和转换,并将其装载到数据仓库中,为基于数据仓库的决策分析应用提供高质量的数据。ETL工具从本质上而言是一种数据转换工具。传统ETL工具一般是对加载到内存的数据逐条进行转换或者质量检测,转换效率比较低。此外,传统ETL大都面向特定的行业领域,对该领域内的具体事务支持较好,当转移到其他领域时,面对新的业务逻辑可能很难处理。针对传统ETL工具的缺陷,本文展开了深入的分析和探讨,着重研究了ETL中的几个关键问题,给出了一个通用ETL工具的设计方案和系统架构。它支持多种异构数据平台。在转换环节,

6、提供了大量细粒度的转换组件,通过组件组合的方式完成复杂的事务,以支持多个领域的业务需求。该工具从各异构的数据源获取元数据并加载到专用的ETL服务器中,在ETL服务器上设计各字段的前后映射,并将整个过程(即抽取规则的元数据)保存到XML中。在运行阶段,通过解析保存在XML中的ETL过程來生成对应的SQL脚本,交由ETL服务器上的数据库完成全部转换工作,最后载入到目标数据库中。最后本文实现了这样一个通用的ETL工具,并应用到具体的业务场景中,开发人员利用此工具灵活、便捷的设计ETL任务,系统运行平稳,很好的完成了数据仓库的ETL过程。关键词:数据仓库,数据抽取,数据清洗,数据转换,数据加载中图分类

7、号:TP311.13通用ETL_T.fl.的研究与设汁AbstractAbstractThedatawarehousecaneffectivelyputalotofdistributedandheterogeneousdataintegrationtotheunifieddata-environmentinordertoprovidedecision-makingdataaccess.Improv

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。