不规范业务数据增量抽取策略的研究

不规范业务数据增量抽取策略的研究

ID:44291500

大小:33.00 KB

页数:6页

时间:2019-10-20

不规范业务数据增量抽取策略的研究_第1页
不规范业务数据增量抽取策略的研究_第2页
不规范业务数据增量抽取策略的研究_第3页
不规范业务数据增量抽取策略的研究_第4页
不规范业务数据增量抽取策略的研究_第5页
资源描述:

《不规范业务数据增量抽取策略的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、不规范业务数据增量抽取策略的研究摘要:针对不规范的业务数据增量抽取,文章提出基于游标和主键的业务局部比对的抽取策略,该策略具有不影响业务系统、实现容易、效率高等特点。Abstract:Basedonnon-standardbusinessdataincrementalextraction,thearticleproposedanextract!onstrategybasedoncomparisonofcursorandprimarykeylocalbusiness,thestrategyhasnotaffectedbusinesssystemswitheasy

2、implementationandhighefficiency.关键词:不规范;业务数据;研究Keywords:non-standard;businessdata;research中图分类号:TP31文献标识码:A文章编号:1006-4311(2010)36-0176-021业务数据结构表概述表1是某K单位政务系统A业务数据表代表,经分析,发现该表没有表示数据更新的标志字段。规范设计的数据表应如表2所示,是表1增加数据增量标志而得到的。这样,在表2中插入一条数据,从入库时间和更新标志将容易判断那条数据是新增的。从业务需求表1,将无法直接判断哪些是数据新增的。2

3、基于游标和主键的业务局部比对的抽取策略分析传统数据增量抽取策略,研究适合于业务系统A业务数据表的数据增量抽取策略。2.1业务数据局部比对。分析传统抽取策略。鉴于业务系统A的业务数据表都是不规范的数据表,没有数据增量标志。分析传统的时间戳、日志表、全表比对、全表删除插入四种数据增量抽取策略,都不是很合适。对于时间戳方式,虽然业务数据表中没有时间戳标志,但可考虑在应用系统中建立触发器⑷[5],但是这样将对业务系统将产生影响;对于日志表方式,业务系统采用的是Sybase,没有像OracleLogminer⑹等第三方软件对业务系统进行日志分析;对于全表比对和全表删除插

4、入都是适应用于数据量比较小的情况。分析业务数据表,业务系统A均有于时间区段有关的字段“汇交年月”。因此可采用''局部数据比对”,即将数据表限制在特定的时间段进行比对。如限制系统执行日之前的一个月以内。这样将确保所有的增量数据均包含在内,以达到增量抽取的目的。2.2基于游标的主键比对。虽然采用业务数据局部比对解决了数据增量抽取,但是局部比对需要对源表与目标表一个月内的数据进行比较。比较的数据量在几十万到一百万,比较大。本文采用基于游标的主键比对大大提高性能。下面描述基于游标的主键比对是怎样进行的。表3是一张不规范的业务数据表,而表4是和表3对应的经规范化业务数据

5、表,新增了删除标志、更新标志、插入标志及时间戳四个字段以标识新增数据。第一次全量抽取时,即将表3中所有的数据抽取到表4中。由于是全量抽取,所以对于目标表而言,全部的数据都应该是插入的。并假设这次全量抽取的时间是2006-10-1010:00o全量抽取后,以后作增量抽取,即只抽取源表中变化的数据,包括删除、更新、插入的数据。假设三天后,表3中的业务数据由于数据更新变成表5中的数据。从表5中,可以看到主键为101和106的数据被物理删除了、新增了主键为108的一条数据及主键为102数据的字段2的值C被更新成了乙筛选源表和目标表数据,为了提高速度,限制游标只能读,并

6、且只能向前。基于游标主键比对的思想为源表和目标表的主键进行依次比较:①当它们的主键不等时,主键小的一端的游标每次递增一个单位,再比较;②当它们的主键相等时,源表和目标表的游标同时递增一个单位;③当在源表中的主键被比较完而目标表还有主键时,表明目标表中这些主键的数据都是在源表中被删除的;4)当目标表中的主键被比较完而源表还有主键时,表明源表中这些主键的数据都是新增的。现描述游标主键比对是怎样进行的,下面1-6是基于游标主键比对的先后次序。其中,源表表示表5中的数据,目标表表示表6中的数据。2.2.1源表的主键102>i标表的主键101,表示源表中主键为101的数

7、据被删除了,所以在目标表中主键为101的数据的删除标志标为1,同时修改时间戳。2.2.2源表的游标不增加,目标表的游标加1,此时,源表的主键102与目标表的主键102相等。比较关键字段,如字段1、字段2。2.2.3源表和目标表的游标都递增1,此时,源表和目标表的主键都为103。比较关键字段。2.2.4重复第3步。2.2.5当递增到,源表的主键107>@标表的主键106时,和步骤1相同,即表明源表中主键为106的数据被删除了。2.2.6当在源表中的主键递增到108时,目标表的主键恰好被比较完了,表明源表中的主键为108的数据是新增的。上述1-6的详细比较过程请参

8、看图1,图中总共有8个小图,小图的左边

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。