Flink入门之Flink程序开发步骤（Java语言）-APISpace

Flink入门之Flink程序开发步骤（Java语言）

我们如果要使用flink进行计算开发，一个完整的开发步骤是怎样的呢？

Batch Analytics，右边是 Streaming Analytics。批量计算: 统一收集数据->存储到DB->对数据进行批量处理，对数据实时性邀请不高，比如生成离线报表、月汇总，支付宝年度账单（一年结束批处理计算）Streaming Analytics 流式计算，顾名思义，就是对数据流进行处理，如使用流式分析引擎如 Storm，Flink 实时处理分析数据，应用较多的场景如实时报表、车辆实时报警计算等等。

1.开发程序所需依赖

UTF-8 UTF-8 1.8 1.8 1.8 2.12 1.13.2 org.apache.flink flink-clients_2.12 ${flink.version} org.apache.flink flink-scala_2.12 ${flink.version} org.apache.flink flink-java ${flink.version} org.apache.flink flink-streaming-scala_2.12 ${flink.version} org.apache.flink flink-streaming-java_2.12 ${flink.version} org.apache.flink flink-table-api-scala-bridge_2.12 ${flink.version} org.apache.flink flink-table-api-java-bridge_2.12 ${flink.version} src/main/java org.apache.maven.plugins maven-compiler-plugin 3.5.1 1.8 1.8 org.apache.maven.plugins maven-surefire-plugin 2.18.1 false true **/*Test.* **/*Suite.* org.apache.maven.plugins maven-shade-plugin 2.3 package shade *:* META-INF/*.SF META-INF/*.DSA META-INF/*.RSA

2.获取执行环境

flink程序开发，首要的便是需要获取其执行环境！

ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();或者StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();

如果使用StreamExecutionEnvironment 默认便是流式处理环境

但是flink1.12.0 开始，流批一体，我们可以自己指定当前计算程序的环境模式

指定为自动模式:AUTOMATIC

此设置后,flink将会自动识别数据源类型

有界数据流，则会采用批方式进行数据处理

无界束流，则会采用流方式进行数据处理

env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC);

强制指定为批数据处理模式:BATCH

env.setRuntimeMode(RuntimeExecutionMode.BATCH);

强制指定为流数据处理模式:STREAMING

env.setRuntimeMode(RuntimeExecutionMode.STREAMING);

注意点：

在flink中，有界与无界数据流都可以强指定为流式运行环境，但是，如果明知一个数据来源为流式数据，就必须设置环境为AUTOMATIC 或STREAMING,不可以指定为BATCH否则程序会报错！

3.加载/创建数据源

flink,是一个计算框架，在计算的前提，肯定是要有数据来源啊！

flink可以从多种场景读取加载数据，例如各类DB 如Mysql、SQL SERVER、MongoDB、各类MQ 如Kafka、RabbitMQ、以及很多常用数据存储场景如redis、文件(本地文件/HDFS)、scoket…我们在加载数据源的时候，便知道，该数据是有界还是无界了！

flink读取rabbitMQ消息，是有界还是无界呢？当然是无界！因为flink程序启动时，能通过连接知道什么时候MQ中有数据，什么时候没有数据吗？不知道，因为本身MQ中是否有消息或者消息有多少就是一个不能肯定确定的因素，因此其不得不保持一个类似于长连接的形式，一直等待MQ中有数据到来，然后处理。

flink读取指定某个文件中的数据，那么此数据源是有界还是无界呢？当然是有界！因为文件中数据，flink读取会做记录，当文件内容读完了，数据源就相当于没有新的数据来到了嘛！

从集合中读取数据:

DataStream elementsSource = env.fromElements("java,scala,php,c++","java,scala,php", "java,scala", "java");

那么，这是无界数据还是有界数据呢？很明显，有界数据！因为数据就这么多，当前数据源在读取时不会再凭空产生数据了。

从scoket中读取数据:

DataStreamSource elementsSource= env.socketTextStream("127.0.0.1", 9999);

这是无界数据还是有界数据呢？很明显，无界数据！因为scoket一旦连接,flink不会知道其数据源什么时候会数据结束，其不得不保持一个类似于长连接的状态，一直等待Scoket中有数据到来，然后处理。

4.数据转换处理

数据转换处理，就是flink使用算子，对从数据源中获取的数据进行数据加工处理（例如数据转换，计算等等）

例如：开窗口、低阶处理函数ProcessFuction、各种算子：map（映射，与java8流中Map效果类似），flatmap（元素摊平，与java8流中Map效果类似）等等。

demo示例：

DataStreamSource elementsSource = env.fromElements("java,scala,php,c++", "java,scala,php", "java,scala", "java");// 数据处理DataStream flatMap = elementsSource.flatMap(new FlatMapFunction() { @Override public void flatMap(String element, Collector out) throws Exception { String[] wordArr = element.split(","); for (String word : wordArr) { out.collect(word); } }});flatMap.map(new MapFunction() { @Override public String map(String value) throws Exception { return value.toUpperCase(); }});

5.处理后数据放置/输出

将计算后的数据，进行放置（输出/存储），可以很地方，从什么地方读取数据，自然也可以将计算结果输出到该地点。

例如：输出到文件，输出到控制台，输出到MQ，输出到DB,输出到scoket…

输出到控制台

source.print();

6.执行计算程序

启动示例:

// 1.准备环境StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();// 设置模式（流、批、自动）// 2.加载数据源// 3.数据转换// 4.数据输出// 5.执行程序env.execute();//或者 env.execute("指定当前计算程序名");

7.完整示例

public class FlinkDemo { public static void main(String[] args) throws Exception { // 1.准备环境 StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // 设置运行模式 env.setRuntimeMode(RuntimeExecutionMode.AUTOMATIC); // 2.加载数据源 DataStreamSource elementsSource = env.fromElements("java,scala,php,c++", "java,scala,php", "java,scala", "java"); // 3.数据转换 DataStream flatMap = elementsSource.flatMap(new FlatMapFunction() { @Override public void flatMap(String element, Collector out) throws Exception { String[] wordArr = element.split(","); for (String word : wordArr) { out.collect(word); } } }); //DataStream 下边为DataStream子类 SingleOutputStreamOperator source = flatMap.map(new MapFunction() { @Override public String map(String value) throws Exception { return value.toUpperCase(); } }); // 4.数据输出 source.print(); // 5.执行程序 env.execute("flink-hello-world"); }}

IDEA执行后，输出结果：

前边序号可以理解为多线程执行时的线程名字！

c语言sscanf函数的用法是什么

305 2022-11-19

Flink入门之Flink程序开发步骤（Java语言）

c语言sscanf函数的用法是什么

r语言清空数组的方法是什么

c语言一维数组怎么快速排列

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）