阿里云数据集成服务-数据入云-D

阿里云数据集成服务-数据入云-D

ID:35885667

大小:145.68 KB

页数:11页

时间:2019-04-22

阿里云数据集成服务-数据入云-D_第1页
阿里云数据集成服务-数据入云-D_第2页
阿里云数据集成服务-数据入云-D_第3页
阿里云数据集成服务-数据入云-D_第4页
阿里云数据集成服务-数据入云-D_第5页
资源描述:

《阿里云数据集成服务-数据入云-D》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据集成数据入云数据集成/数据入云数据入云一、简介DataX是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括MySQL、SQLServer、Oracle、PostgreSQL、HDFS、Hive、OceanBase、HBase、OTS、ODPS等各种异构数据源之间高效的数据同步功能。二、环境要求1、Linux2、JDK(1.6以上,推荐1.6)3、Python(推荐Python2.6.X)4、ApacheMaven3.x(若不编译DataX源码,则不需要)三、工具部署方法一、直接下载DataX工具包:DataX$cd{YOUR_DATAX_HOME}/bin$pyth

2、ondatax.py{YOUR_JOB.json}下载后解压至本地某个目录,进入bin目录,即可运行同步作业:同步作业配置模板,请参考DataX各个插件配置模板和参数说明方法二、下载DataX源码,自己编译:DataX源码(1)、下载DataX源码:$cd{DataX_source_code_home}$mvn-Ucleanpackageassembly:assembly-Dmaven.test.skip=true$gitclonegit@github.com:alibaba/DataX.git(2)、通过maven打包:打包成功,日志显示如下:10数据集成/数据入云[INFO]

3、BUILDSUCCESS[INFO]-----------------------------------------------------------------[INFO]Totaltime:08:12min[INFO]Finishedat:2015-12-13T16:26:48+08:00[INFO]FinalMemory:133M/960M[INFO]-----------------------------------------------------------------$cd{DataX_source_code_home}$ls./target/datax/d

4、atax/binconfjoblibloglog_perfpluginscripttmp打包成功后的DataX包位于{DataX_source_code_home}/target/datax/datax/,结构如下:四、配置示例例:从stream读取数据并打印到控制台#stream2stream.json{"job":{"setting":{"speed":{"channel":5}},"content":[{"reader":{"name":"streamreader","parameter":{"sliceRecordCount":10,"column":[{"type":"

5、long","value":"10"},{"type":"string","value":"hello,你好,世界-DataX"},{"type":"double","value":"3.141592653"},{"type":"bytes","value":"image"},{"type":"bool","value":"true"第一步、创建创业的配置文件(json格式)10数据集成/数据入云},{"type":"bool","value":"5678true"},{"type":"date","value":"2014-10-10","dateFormat":"yyyy-M

6、M-dd"}]}},"writer":{"name":"streamwriter","parameter":{"encoding":"UTF-8","print":true}}}]}}$cd{YOUR_DATAX_DIR_BIN}$pythondatax.py./stream2stream.json第二步:启动DataX同步结束,显示日志如下:10s205B/s5rec/s500任务启动时刻:2015-12-1711:20:15任务结束时刻:2015-12-1711:20:25任务总计耗时:任务平均流量:记录写入速度:读出记录总数:读写失败总数:...2015-12-1711:2

7、0:25.263[job-0]INFOJobContainer-五、了解更多Datax开源地址DataX各个插件配置模板和参数说明一、简介10数据集成/数据入云ApacheFlume是一个分布式的、可靠的、可用的系统,可用于从不同的数据源中高效地收集、聚合和移动海量日志数据到集中式数据存储系统。ODPSSink是基于ODPSDataHubService开发的Flume插件,可以将Flume的Event数据导入到ODPS中。插件兼容Flume的原有功能特性,支持ODPS表自定义分区

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。