数据抽取解决方案docx

数据抽取解决方案docx

ID:2758789

大小:309.31 KB

页数:20页

时间:2017-11-17

数据抽取解决方案docx_第1页
数据抽取解决方案docx_第2页
数据抽取解决方案docx_第3页
数据抽取解决方案docx_第4页
数据抽取解决方案docx_第5页
资源描述:

《数据抽取解决方案docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据抽取解决方案文件编号:数据抽取解决方案起草部门:数据分析软件事业部管理部门:数据分析软件事业部撰写人:汤宇航审核人:批准人:发布日期:20数据抽取解决方案修订页编号章节名称修订内容简述修订日期修订前版本号修订后版本号修订人批准人1全文2011-4-80.1汤宇航20数据抽取解决方案目录1引言41.1背景41.2编写目的41.3术语定义41.4条件与限制51.5参考资料52概述53数据抽取架构53.1数据抽取应用架构53.2数据抽取技术架构74总体抽取思路85初始抽取加载105.1实现技术105.2实施步骤115.2.1从生产系统数据层到集结区的初始抽取加载115.2.2从集结区

2、到数据仓库的初始抽取加载115.2.3从生产系统数据层到数据仓库的数据初始抽取加载116增量抽取加载126.1实现技术126.2实施步骤146.2.1从生产系统数据层到集结区的增量抽取加载146.2.2从集结区到数据仓库的增量抽取加载146.2.3从生产系统数据层到数据仓库的数据增量抽取加载147数据聚集148数据清洗149平面文件数据加载159.1SQL*Loader(SQLLDR)159.2外部表1610ETL性能1710.1服务器资源及其配置1710.1.1并行执行配置1810.2日常管理1910.3其他2020数据抽取解决方案1引言1.1背景在我们目前的数据分析项目中,数据

3、抽取环节出现的问题比较多,特别是性能的问题比较突出,有些项目甚至一个晚上都不能完成抽取工作,极大影响第二天的正常工作。而出现这些问题的原因有可能是由于采取了不合理的数据流转过程,采用了与实际环境不相匹配的技术,也有可能是对抽取过程中的性能问题缺乏认识。另外,我们缺少一个统一的数据抽取方案,没有超越具体的项目从总体上对抽取过程中涉及的各种子系统和它们之间的关系进行统一的整理。孤立的看每个具体的项目,都有其局限性,不利于发现问题,不利于为今后的项目提供参考和指导。1.2编写目的通过本文档,总结以往项目的问题和经验,从总体上确定数据抽取解决方案,为今后项目提供指导。1.3术语定义1.ET

4、LETL是抽取、转换和加载的缩写,在这里表示数据从生产系统到数据仓库的中的整个操作步骤和流程。2.生产系统指产生数据的系统,数据在这些系统的各个业务环节中产生,是进行数据分析的数据源头,它为数据仓库提供原始的数据。包括CTAIS、防伪税控系统等。3.数据仓库本文中指的是公司的税务数据仓库,数据来源于各个生产系统,通过ETL过程抽取过来,在抽取过程中进行一系列转换、集成、清洗和聚集等操作。数据仓库是所有项目的数据支撑,项目中所需的分析型数据全部来自于数据仓库,而不是直接从生产系统中获取。4.集结区集结区是对来自生产系统的数据进行加工的地方,是连接生产系统和数据仓库的桥梁。集结区只能由

5、具有ETL权限的用户访问,一般不能由数据仓库用户访问,也即其中的数据不能作为数据源展现给数据仓库的用户。ETL用户在集结区中对来自生产系统中的数据进行各种加工(包括清洗、转换和集成等操作),并把加工后的数据加载到数据仓库中。5.CTASCTAS是CreateTableAsSelect的缩写。6.代理键代理键是指维度表中顺序和无业务含义的整数型主键。7.自然键自然键是指生产系统中的表的主键,通常具有一定的业务含义,由一个或多个字段组成。20数据抽取解决方案1.1条件与限制1.本文所描述的内容中,数据库服务器都仅指Oracle系统的数据库服务器。2.编写目的中也描述了,本文是对以往项目

6、的总结。所以,在本文中没有考虑存在快照库的情况。其实这也不是什么问题,如果存在快照库,就相当于在生产系统和集结区之间多了一个子系统。只需把下文中关于生产系统的描述都理解为快照库即可。至于生产系统和快照库之间,利用数据复制工具就可以实现在两者之间的数据同步。1.2参考资料《Oracle数据增量抽取解决方案》《ETL性能分析和优化V1.0》2概述在目前,最重要的事情就是通过对以往各个项目的数据抽取工作的总结,整理出一个最符合当前实际情况的数据抽取应用架构。梳理出整个数据抽取过程应该包括哪些子系统,理清数据如何在这些子系统之间流转。同时,结合各个子系统的特点和数据处理的需求,为每个数据流

7、转过程选用合适的技术方案,确定数据抽取的技术架构。在架构之外,另一个决定数据抽取是否成功的因素是ETL性能。影响ETL性能的因素有很多,最主要的是各个服务器的软硬件资源规划,以及是否对它们进行了合理的配置。另外,是否进行合理和必要的日常管理也会极大的影响ETL的性能。以下各章节将分别对这些内容进行阐述,对于一些细节性的技术内容,限于篇幅,不再在本文中赘述,关于这些内容详见《Oracle数据增量抽取解决方案》和《ETL性能分析和优化V1.0》等文档。3数据抽取架构3.1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。