kettle数据集成实验指导书

kettle数据集成实验指导书

ID:45756650

大小:81.75 KB

页数:6页

时间:2019-11-17

kettle数据集成实验指导书_第1页
kettle数据集成实验指导书_第2页
kettle数据集成实验指导书_第3页
kettle数据集成实验指导书_第4页
kettle数据集成实验指导书_第5页
资源描述:

《kettle数据集成实验指导书》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Kettle数据集成木示例演示如何使用Kettle实现数据ETL过程,示例的源数据是一个记录销售信息的CSV文件,数据经过处理,生成一个客户邮件地址列表,然后,导入到一个数据库中。为了演示数据处理过程,数据记录中一些客户信息缺少邮编。在导入数据库Z前,补充缺失信息。整个过程逻辑图如图07图0-1流程示意图1.1从CSV文档中抽取数据(Extraction)这个步骤是从一个CSV格式的文档小录入销售数据,i般的,Kettle转换都是从数据抽取开始的。详细配置如下:(1)单击菜单栏“文件-〉新建-〉转换”创建新的转换。另外,双击“主对象树”分页的“转

2、换”,同样可以创建一个新的转换,或者使用快捷键“Ctrl+N”o(2)选择“核心对象”分页,展开“输入”节点,选择并拖曳“文本文件输入”到右面的设计面板上面。(3)双击“文本文件输入”步骤,出现“文本文件输入”步骤的编辑属性对话框,如图0-2。通过设置对话框显示的选项,到对数据的输入进行控制。1国文本文件输入步晾名称—文件内容糊误处理宇段文件或目录规则表达氏选中的文件:t文彳牛/目录通配符赛求Includesubfolders1图0-2属性对话框(4)在“步骤名”文本框中,输入“销售数据读取”。将步骤名更改为“销售数据读取”。(5)单击“浏览”按

3、钮定位到数据源文件sales.data,csv,例如:文件在E:Kettlesalesdata.csv路径-卜面。定位到文件夹E:Kettle,选择文件salesdata.csv,单击“打开”按钮。(6)单击“增加”按钮,添加文件路径到选中的文件列表中。单击“显示文件内容”按钮。可以查看文件内容的详细榕式,使用了什么分隔符,是否冇行首(列标)。例如:文件使用了逗号(,)作为分隔符,使用引号(“)作为文木限定符,以及包含一行标题。(7)单击“文本文件输入”的“内容”分页,“内容”分页川來设置输入数据文件的格式。(8)在“分隔符”文本框中,输

4、入“,”(中英文逗号不同)。在“文本限定符”文本框中,输入“〃”,因为文件“sales_data.csv”中有行首,选择“头部”,在“头部行数量”文本框中,输入“1”。如闺07所示。□文本文件输入(9)单击“字段”分页,单击“获得字段”,从数据文件中读取字段。此时会弹出一个对话框,要求指定要扫描数据的行数,可以设置任意值,“0”表示扫描整个文件,网格中的每一行都允许定义字段的属性,例如,格式,长度和精度,是否允许有重复行出现。单击“确定”按钮,将显示定义格式下输入数据的汇总信息。通过扫描可以检查输入的数据是否正确,从而减少转换运行时错误。单击“取

5、消”,不扫描数据文件。扫描完成后,单击“关闭”按钮,回到加性设置对话框。(10)在“字段”分页下,找到“SALES”字段,“SALES”的字段类型显示为"String”,kettle通过它來确定字段的数据类型,单击“String”,在下拉框中选择"Number",可以更正数据类型为数字类型。单击“格式”列对应的单元格,输入“#.##”或“0.00”,定义要显示个数据格式。如闿0Y所示。囚文本文件输入文件内容構俣处理it港名/格或T"ORDE刃1UHBERInte:er2QOAKTinORDEREDInteger83PRICEEACHStnn<4O

6、RDERLIHENUMBERIntegert5SALESRunbert.U6ORDEBDATEStrin<7STATUSString8QTRDIntegerg9KKTHWInterert图0-4字段属性页(11)单击“预览记录”,查看指定行数的记录。以验证输入的数据格式是否正确。1.2过滤邮编缺失的记录(Transformation)资源文件中有许多缺少邮编的记录,使用过滤记录步骤过滤出这些记录,以便在卜-一个步骤屮解决。(1)添加“过滤记录”,到设计面板。(2)创建一个连接在“销售数据输入”(文本文件输入)步骤和“过滤记录”步骤Z间。连接表示数

7、据在转换屮的流向,创建连接,单击“销售数据输入”步骤,然后,长按Shift键,在“销售数据输入”图标上按着鼠标左键拖曳到过滤记录步骤。这样两个步骤Z间显示一个箭头,表示数据的流向。如闺0巧所示。茉第一条转换肓JA竹■R蒂脅专忌&艮旨100%v

8、E—誚售数据输入过滤记录图0-5步骤设置另外,把鼠标悬停在“销售数据输入”步骤上,过一会儿,会出现悬停窗口,拖曳步骤的向右指针按钮到“过滤记录”,同样可以创建一个连接。如图处所示。iA1>1A、销售数据输入7Q叵图0-6添加连接(1)双击“过滤记录”步骤,在属性设置对话框中编辑“过滤记录”的属性。(2)在“

9、步骤名”文木框中输入“过滤缺火邮编”(3)在“条件”下而,点击0可用于设置转换条件的字段向显示在弹出对话框中。(4)在字段

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。