阿里云数据集成服务-产品简介-D

阿里云数据集成服务-产品简介-D

ID:36205436

大小:395.65 KB

页数:9页

时间:2019-05-07

阿里云数据集成服务-产品简介-D_第1页
阿里云数据集成服务-产品简介-D_第2页
阿里云数据集成服务-产品简介-D_第3页
阿里云数据集成服务-产品简介-D_第4页
阿里云数据集成服务-产品简介-D_第5页
资源描述:

《阿里云数据集成服务-产品简介-D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据集成产品简介数据集成/产品简介产品简介一、简介数据集成(DataIntegration),是阿里集团对外提供的稳定高效、弹性伸缩的数据集成平台,为阿里云大数据计算引擎(包括MaxCompute、AnalyticDB、OSS)提供离线(批量)数据进出通道。有别于传统的客户端点对点同步运行工具,数据集成本身以公有云服务为基本设计目标,集群化、服务化、多租户、水平扩展等功能都是其基本实现要求。采云间、御膳房、聚石塔、孔明灯的后台数据同步均是基于数据集成完成各自的数据传输需求。二、功能与限制1)功能与特点目前数据集成支持(和即将支持)的数据通道包括:-关系型数据库:RDS(MySQL、SQLS

2、erver、PostgreSQL)、DRDS-NoSQL数据存储:OTS、OCS-数据仓库:MaxCompute、AnalyticDB-结构化存储:OSS-文本:TXT、FTP同步模式上目前仅支持离线数据同步模式,数据周期性(例如每小时、每天、每周等)、成批量地从源端系统传输到目标端系统。对于离线数据同步系统,数据以读取Snapshot(快照)的方式从源端传输到目的端。离线同步存在生命周期,一个离线同步的任务有起始同样也有结束状态。2)约束与限制数据集成将阿里云上各类异构数据流动打通,让数据不再成为孤岛。目前存在如下约束和限制条件:-支持且仅支持结构化(例如RDS、DRDS等)、半结构化(

3、OTS等)、无结构化(OCS、OSS、TXT等,要求具体同步数据必须抽象为结构化数据)的数据同步。换言之,DataIntegration支持传输能够抽象为逻辑二维表的数据同步,其他完全非结构化数据,例如OSS中存放的一段MP3,DataIntegration不支持将其同步到MaxCompute。-支持且仅支持单个地域内数据存储相互同步、交换的数据同步需求,不支持多个地域之间数据同步。例如,暂时不支持将青岛RDS数据同步到杭州MaxCompute集群上来。-仅完成数据同步(传输),本身不提供数据流的消费方式,即用户不能直接通过数据集成的API消费数据流。所有针对数据的操作,用户必须在数据传输

4、两端的存储系统中操作。一、产品与概念CDP定义只完成数据同步/传输过程,并且整体数据传输过程完全控制于CDP同步集群模型下,同步的通道以及8数据集成/产品简介同步数据流对用户完全隔离。同时,CDP本身不提供传输同步数据流的消费功能,即用户不能直接通过CDP的API消费数据流,所有针对数据操作,用户必须在同步数据流两端存储端操作。如下图所示:二、技术与原理CDP在阿里云上提供一套分布式离线数据同步平台,同时提供一套抽象化的数据抽取插件(称之为Reader)、数据写入插件(称之为Writer),并基于此框架设计一套简化版的中间数据传输格式,从而达到任意结构化、半结构化数据源之间数据传输之目的。

5、从用户角度来看,一个CDP运行Job示意图如下:上述中,虚线代表API调用控制,灰色方向箭头代表数据流向。圆形节点代表底层一台数据同步执行节点,黑色节点代表正在执行当前数据同步业务的执行节点。下面简要描述用户使用CDPJobAPI触发调用CDP的Job同步过程:•用户使用CDPJob启动API,向CDP服务端发起调用,提交一个离线数据同步Job。•CDP收到JobAPI请求后,将负责做必要的安全和权限校验,待校验通过后,CDP会下发相应的Job到执行集群节点启动离线数据同步任务。•Job启动后,根据用户提供源端(Reader)、目的端(Writer)的配置信息,加载并初始化相关插件,连接两

6、端数据源,开始数据同步工作。8数据集成/产品简介•Job运行过程中,将随心跳向CDP汇报当前进度、速度、数据量等关键运行指标,用户根据Job的状态API实时获取该Job运行状态,直至Job运行结束(成功或者失败)。产品概念一、数据同步的定义广义的数据同步是指为保持两端数据一致性而进行数据传输过程。一般来讲,数据同步是为保证源宿两端数据逻辑的一致性,将数据从数据源移动到数据目的端,并伴随一定的数据转换或者清洗的过程。在CDP的功能边界中,数据同步定义为云上各种存储产品之间进行的数据转移过程。二、数据同步的要素CDP同步核心概念主要由三个要素构成:-数据源:指数据同步的数据源存储,包括寻址信息

7、(包括可能的IP、库等信息,用以同步寻址)、同步内容(包括同步的表、字段信息等)、控制信息(编码清洗等)。-数据目的端:指数据同步的数据目的端存储,包括寻址信息(包括IP、库等信息,用以同步寻址)以及同步内容(包括同步的表)、控制信息(脏数据处理等)。-数据转换过程:指数据同步过程中存在的数据转换过程,泛指数据的计算、清洗等过程,该过程不是必要条件。同步过程={X

8、X=<源描述,目的描述,转换过程>}三、数据同步的种类离

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。