Kettle基础及快速入门

网友投稿 375 2022-11-28

Kettle基础及快速入门

(一)概述

1、ETL

ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)

ETL工具:Sqoop,DataX,Kettle,Talend等

2、Kettle介绍

水壶、多数据源(ETL工作集)、Java编写

Kettle(现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成)。

3、两大概念:作业和转换

两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。

理解:job中包含transform

4、核心组件

5、特点

(二)使用

1、安装文件

hitachi公司

下载地址:​​Programming Languages,VPL)

(2)转换

负责数据的输入、转换、校验和输出等工作

由多个步骤 (Step) 组成,各个步骤使用跳 (Hop) 来链接

(3)步骤

一个输入到多个输出跳

数据的发送可以分为分发和复制

(4)跳(Hop)

带箭头的连线

行集的数据行缓存,类似于MQ的容量

(5)元数据

对每个字段的描述

(6)作业

定义整个工作流的控制

串行的调度工具来执行转换

作者:​​哥们要飞​​​

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:ACM SIGIR 2022 | 美团技术团队精选论文解读
下一篇:如何正确耦合和端接串行数据通道
相关文章

 发表评论

暂时没有评论,来抢沙发吧~