kettle同步大数据安装部署配置

网友投稿 329 2022-11-21

kettle同步大数据安装部署配置

目    次

​​1 部署准备 ​​

​​1.1 服务器信息 ​​

​​1.2 组件及软件下载 ​​

​​1.3 java安装相关配置 ​​

​​1.3.1 JDK配置 ​​

​​1.3.2 JDK配置检查 ​​

​​2 kettle部署 ​​

​​2.1 解压安装文件 ​​

​​2.2 文件赋权 ​​

​​2.3 环境变量设置 ​​

​​3 应用组件说明 ​​

​​3.1 建立转换 ​​

​​3.2 建立执行的JOB/作业 ​​

​​3.3 调用shell ​​

​​3.4 调用python ​​

​​3.5 日志记录 ​​

​​3.6 参数传递 ​​

​​3.7 定时任务 ​​

​​3.8 生产部署 ​​

​​4 接入不同数据源连接实例 ​​

​​4.1 mysqlTo​​

​​4.2 oracleTo​​

​​4.3 CDHTo​​

​​4.4 ElasticSearchTo​​

​​4.5 ToElasticSearch ​​

​​5 应用实践 ​​

1  部署准备

1.1  服务器信息

包含kettle服务器,大数据环境信息

1.2  组件及软件下载

用到哪些组件,组件的官方获取版本

1.3  java安装相关配置

1.3.1   JDK配置

1) 命令行键入“cd /etc”进入etc目录

2) 命令行键入“vi profile”打开profile文件

3) 敲击键盘ctrl+F到文件末尾

4) 在末尾处,敲击键盘将以下内容输入到文件

export JAVA_HOME=/usr/java/jdk1.8.0_11

export CLASSPATH=/usr/java/jdk1.8.0_11/lib

export PATH=$JAVA_HOME/bin:$PATH

export JAVA_HOME=/usr/lib/jvm/java-1.8.0

export CLASSPATH=/usr/lib/jvm/java-1.8.0/lib

export PATH=$JAVA_HOME/bin:$PATH

5) 键盘敲击esc,命令行键入“:wq”,保存文件;

1.3.2   JDK配置检查

1) 命令:java -version.出现版本信息

2) 命令:echo ${JAVA_HOME}出现配置路径

2  kettle部署

2.1   解压安装文件

在linux下某个目录下创建一个文件夹,将你从官网上下载的kettle安装包(pdi-ce-7.0.0.0-25.zip)解压后放在该文件夹下。

2.2   文件赋权

在解压的路径下找到kitchen.sh所在的路径,进入该目录,通过chmod +x *.sh赋予.sh文件执行权限。

给这个文件夹下面的所有.sh文件赋执行的权限

输入命令./kitchen.sh回车 看输出信息--

看到上面出现 -rep,-user,-pass 这些kettle中的帮助信息,说明kettle部署成功!

wget ​​ftp://ftp.pbone.net/mirror/ftp5.gwdg.de/pub/opensuse/repositories/home:/matthewdva:/build:/EPEL:/el7/RHEL_7/x86_64/webkitgtk-2.4.9-1.el7.x86_64.rpm​​

yum install webkitgtk-2.4.9-1.el7.x86_64.rpm

2.3  环境变量设置

3  应用组件说明

3.1   建立转换

选中列表中的的“表输入”、“表输出”、“插入/更新”,拖拽到右侧工作区。鼠标选中节点键盘按shift键,拖拽即可连线。下图是一个转换,有两个动作,一是直接从数据源表同步数据到目标表,一是检查源表的插入和更新,同步到目标表。

黑色线为生效,灰色线为失效,节点和连接可双击进行编辑。

双击编辑表输入动作。

可预览数据是否正确。

双击编辑表输出动作。

要获取的字段设置如下所示:

选择要用的字段后点确定,注意字段的约束条件。

双击编辑“插入/更新”动作。

3.2   建立执行的JOB/作业

从左侧列表拖拽“START”,“Success”,“转换”,“发送邮件”到工作区并连接,如下图。

然后双击“START”动作进行编辑。

然后双击编辑“转换“。 转换文件名选择上一步编辑好的.ktr文件。

双击发送邮件,参数设置如下:

3.3  调用shell

3.4  调用python

3.5  日志记录

3.6  参数传递

3.7  定时任务

3.8  生产部署

4  接入不同数据源连接实例

4.1  mysqlTo

4.2  oracleTo

4.3  CDHTo

4.4  ElasticSearchTo

4.5  ToElasticSearch

5  应用实践

​从采集3种不同数据源,到中间各一个脚本,到最终的数据入es。完成后将调度过程部署到生产环境,启动后,如何查看开始正常执行。。。​

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Java使用JMeter进行高并发测试
下一篇:CAN光纤转换器的详细介绍
相关文章

 发表评论

暂时没有评论,来抢沙发吧~