批量数据处理经验分享

批量数据处理经验分享

ID:39512965

大小:929.70 KB

页数:49页

时间:2019-07-04

批量数据处理经验分享_第1页
批量数据处理经验分享_第2页
批量数据处理经验分享_第3页
批量数据处理经验分享_第4页
批量数据处理经验分享_第5页
资源描述:

《批量数据处理经验分享》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ChinaConstructionBank.

2、1批量数据处理经验分享中国建设银行2011年2月目录ChinaConstructionBank.

3、2CRM数据线结构批量数据处理经验分享CRM数据线结构ChinaConstructionBank.

4、3外部系统ODSETL处理模块OCRMACRMTPSWMSSWPPS……CRM数据线数据类型-每日基础数据ChinaConstructionBank.

5、4CCBS:活期、定期、银行卡、实物黄金账户每日增量 国际卡:贷记卡每日增量 证券:证券账户、持有证券、签约每日增量;成交每日全量A+P:贷款账户每

6、日增量 理财系统:账户每日增量 银保通:保单、签约每日增量CTS:资金账户每日增量ECIF:客户、1560、联系方式、渠道签约每日增量 账户和客户每日增量包括最新的时点状态ETL模块在逻辑上积累这些数据的全量(ACRM数据库中)CRM数据线数据类型-每月汇总数据ChinaConstructionBank.

7、5CCBS:活期、定期、银行卡、实物黄金账户全量 国际卡:贷记卡全量 证券:持有证券每月全量A+P:贷款账户每月全量 理财系统:账户每月全量 银保通:保单每月全量CTS:资金账户每月全量ECIF:客户汇总每月全量 客户汇总数据包括客

8、户当月的AUM、贡献、总负债等 账户汇总数据包括月末余额,月均余额、当月累计交易情况等CRM数据线处理类型ChinaConstructionBank.

9、6直传: 项目组直接和ODS确定接口,数据送到ETL模块后,通过DPTF平台转发。目前OCRM、ACRM、WPPS、ICSP、ESME、TPS、OCRM房金、WMSS、CCOB、PBCS都使用到这种方式。 加工:ETL模块对数据做加工,然后通过DPTF平台发送。目前OCRM、WPPS、WMSS、TPS、ECIF使用这种方式。加工规则主要包括:1、拼接字段,增加信息(增加ECIF客户号,或

10、拼接几个档的数据)2、过滤记录(滤出某个客户群体的数据)3、数据质量完善(处理不同步的情况,或全量修复)4、代码转换5、汇总(ETL模块汇总数据,共享给其它系统如ECIF、OCRM)目录ChinaConstructionBank.

11、7CRM数据线结构批量数据处理经验分享批量处理结构设计datastage常用经验大数据量操作批量处理结构设计-批量处理方式的选择ChinaConstructionBank.

12、8我中心目前常用的批量数据处理方式包括三类:通过ETL工具(主要是datastage)进行批量数据处理,中心的大部分系统均通过这种方式进行

13、处理,如OCRM、ACRM批量线等;通过SQL和sh脚本进行批量数据处理,使用这种方式的系统较少,ACRM部分应用使用PLSQL,如营销清单处理;编写C/java代码进行批量数据处理,主要是ECIF系统;批量处理结构设计-批量处理方式的选择-datastageChinaConstructionBank.

14、9datastage优点:并行数据处理效率高,特别是文件处理,可以达到平面文件处理效率的10倍以上,而且可以在同一个任务中做灵活的并发设置。其提供的join、sum、sort、group等节点,可以有效的降低数据库的压力;对于复杂的ETL

15、应用,开发简单,而且提供任务调度、事件触发等功能,在批量处理环境复杂的项目中有优势;批量处理结构设计-批量处理方式的选择-datastageChinaConstructionBank.

16、10datastage缺点:管理和维护的工作量较大。一旦使用datastage,必须在运行期间投入人力进行运维,主要体现在几方面:运维的大部分操作需要使用工具的client完成,命令行能力较差,因此运维难以实现自动化。例如日志一般情况下只能通过工具查看,很难导出;运行监控只能在工具中进行;错误查询时只能一个个stage的打开查看设置,无法搜索和批量操作等;

17、Datastage的任务运行模式,使程序的错误处理很难做到自动,因为任务(job)自身不能定位错误发生在哪里,发生的规模有多大,因此当发生错误时最好的方式是停止程序并人为干涉,这一点和自己编写程序的ETL处理流程有很大差别;版本管理不方便;资源的占用大,一个paralleljob,如果stage较多,在运行是可能生成几十到上百的osh进程,cpu和io的占用会比较大。datastage对文件处理的高效是以大cpu占用,大io占用为代价的;Datastage工具本身没有提供包装业务逻辑的手段,其结果是完成一个操作的很多业务逻辑,被分散到了不

18、同的stage中(甚至分散在不同的job中),在这种情况下,如果没有统一的规范,会造成开发出来的代码比较“乱”,除了开发者外其它人比较难以维护;批量处理结构设计-批量处理方式的选择-datas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。