数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt

数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt

ID:59266825

大小:115.50 KB

页数:48页

时间:2020-09-22

数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt_第1页
数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt_第2页
数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt_第3页
数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt_第4页
数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt_第5页
资源描述:

《数据仓库与数据挖掘技术 第3章 ETL技术ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第3章ETL技术主讲人:孙水华副教授信息科学与工程学院数据仓库与数据挖掘技术内容ETL相关概念ETL过程建模ETL增量抽取机制ETL过程数据质量控制ETL并行处理技术小结在构建商业智能系统的时候,如何正确有效地将分散在各个不同数据源中的信息整合到系统中成为了整个系统成败的关键,直接影响到系统的运行效率和最终结果。ETL正是解决这一问题的有力工具。ETL是指把数据从数据源装人数据仓库的过程,即数据的抽取(Extract)、转换(Transform)和装载(Load)过程。ETL过程的实质就是符合特定规则的数据流动过程,从不同异构数据源流向统一的目标数

2、据。其间,数据的抽取、清洗、转换和装载形成串行或并行的过程,每个过程都必须符合特定的规则。根据国内外众多实践得到的共识,ETL规则设计和实施所需工作量约占整个项目的60%~80%。由于ETL过程的重要性和复杂性,如何设计正确、高效的ETL过程已经成为了商业智能系统构建过程中无法回避的重要问题。3.1ETL相关概念在设计ETL的时候需要从以下几个方面进行考虑,那就是数据理解、数据抽取、数据清洗、数据转换和数据加载。3.1.1数据理解在设计ETL过程之前,有一项非常重要但经常被人们所忽略的工作,那就是数据理解。数据理解是通过大量的调研和统计工作,了解数

3、据的存储方式、数据量的大小、数据的格式、数据的业务含义等信息,同时还需要统计各种数值型数据的最大值、最小值和平均值,统计非数值型数据中各种不同的取值以及各种不同取值的个数。有了以上信息,ETL以后各个步骤的设计才能做到有的放矢,达到正确、高效的目的。3.1.2数据抽取从源文件和源数据库中获取相关数据用于填充数据仓库,称为数据抽取。并非所有包含在不同操作型业务系统中的数据都需要抽取,通常只需要其中的一个子集。抽取数据的一个子集是基于对源系统和目标系统的扩展分析,一般会由终端用户和数据仓库专家共同决定。在集成端进行数据的初始化时,一般需要将数据源端的全

4、部数据装载进来,这时需要进行全量抽取。全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据全部从数据库中抽取出来,再进行后续的转换和加载操作。全量抽取可以使用数据复制、导入或者备份的方式完成,实现机制比较简单。全量抽取完成后,后续的抽取操作只需抽取自上次抽取以来表中新增或修改的数据,这就是增量抽取。目前,数据抽取所涉及的单个技术环节都已相对成熟,但整体的集成度还很不够。市场上所提供的大多是数据抽取工具,这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的,同时数据抽取过程涉及数据的

5、转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌人用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳人有效的管理、调度和维护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。3.1.3数据清洗数据仓库的外部数据源所提供的数据内容并不完美,存在着“脏数据”,即数据有空缺、噪声等缺陷,而且在数据仓库的各数据源之间,其内容也存在着不一致的现象。为了控制这些“脏数据

6、”对数据仓库分析结果的影响程度,必须采取各种有效的措施,对其进行处理,这一处理过程称为“数据清洗”(DataCleaning)。对于任何数据仓库而言,数据清洗过程都是必不可少的。不同类型的“脏数据”,清洗处理的方法是不同的。对于数据空缺,可以采用忽略元组、用一个全局常量填充空缺值、用属性的平均值填充空缺值、使用与给定元组同类的所有样本的平均值填充空缺值、使用最可能的值填充空缺值、使用像Bayesian公式或判定树这样的基于推断的方法;对于噪声数据,可以用分箱或聚类等方法处理;而对于不一致的数据,则必须依据数据仓库所应用领域的特点,使用特定的方法加以

7、解决。3.1.4数据转换数据转换指接收来自不同运作系统的输入并将其转换成目标数据仓库中需要的格式的过程,包括数据的合并、汇总、过滤、转换等。在设计数据转换时,由于数据源之间往往存在着不一致的问题,因此数据转换必须做到数据名称及格式的统一,同时对于源数据库中可能不存在的数据需要创建新的数据逻辑视图并进行相应的转换。概括起来需要如下的处理:(1)直接映射。数据源字段和目标字段长度或精度相同,则无需做任何处理。(2)字符串处理。从数据源的字符串字段中获取特定信息作为目标数据库的某个字段,则对字符串的操作有类型转换、字符串截取等。由于字符类型字段的随意性也

8、可能造成脏数据的出现,所以在处理这种规则的时候,需要异常处理。(3)字段运算。对于数值型字段来说,有时数据源的一个或多个字

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。