flume之常用sink详解-APISpace

flume之常用sink详解

1、Logger Sink

记录INFO级别的日志，一般用于调试。前面介绍Source时候用到的Sink都是这个类型的Sink

必须配置的属性：

type logger

maxBytesToLog 16 Maximum number of bytes of the Event body to log

注：要求必须在 --conf 参数指定的目录下有 log4j的配置文件，可以通过-Dflume.root.logger=INFO,console在命令启动时手动指定log4j参数

案例：前面的例子都是这种类型的Sink

2、File Roll Sink 在本地文件系统中存储事件。每隔指定时长生成文件保存这段时间内收集到的日志信息。属性说明： type file_roll sink.directory 必填，文件被存储的目录 sink.rollInterval 30 滚动文件每隔30秒（应该是每隔30秒钟单独切割数据到一个文件的意思）。如果设置为0，则禁止滚动，从而导致所有数据被写入到一个文件。 sink.serializer TEXT Other possible options include avro_event or the FQCN of an implementation of EventSerializer.Builder interface. batchSize 100

实例：

a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = = 6666a1.sources.r1.channels = c1a1.channels.c1.type = memorya1.channels.c1.capacity = 1000a1.channels.c1.transactionCapacity = 100a1.sinks.k1.type = file_rolla1.sinks.k1.sink.directory = /home/park/work/apache-flume-1.6.0-bin/mysinka1.sinks.k1.channel = c1

3、Avro Sink

非常重要，是实现多级流动和扇出流(1到多) 扇入流(多到1) 的基础。 flume使用avro rpc实现多个flume节点进行连接。

必要属性说明:

type avro

hostname 必填，he hostname or IP address to bind to.

port 必填，The port # to listen on.

实例1：扇入，多个节点a1。。。an 流入到b1

1）a1...an的配置：

a1.sources=r1a1.sinks=k1a1.channels=c1a1.sources.r1.type=k2a1.channels=c1 c2a1.sources.r1.type=c2a1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transactionCapacity=1000a1.channels.c2.type=memorya1.channels.c2.capacity=1000a1.channels.c2.transactionCapacity=1000a1.sinks.k1.type=avroa1.sinks.k1.hostname=192.168.242.138a1.sinks.k1.port=9988a1.sinks.k1.channel=c1 a1.sinks.k2.type=avroa1.sinks.k2.hostname=192.168.242.135a1.sinks.k2.port=9988a1.sinks.k2.channel=c2

注：如果要实现event数据流的扇出，需要配置多个channel和sink，如果只配置一个channel、多个sink，那么event数据通过channel后会被多个sink互斥的消费掉。

2）b1...bn配置：

b1.sources=r1b1.sinks=k1b1.channels=c1#描述/配置Sourceb1.sources.r1.type=avrob1.sources.r1.bind=0.0.0.0b1.sources.r1.port=9988b1.sources.r1.channels=c1b1.channels.c1.type=memoryb1.channels.c1.capacity=1000b1.channels.c1.transactionCapacity=1000#描述Sinkb1.sinks.k1.type=loggerb1.sinks.k1.channel=c1

启动flume后，event数据通过a1后会分成两股流通过channel1和channel2，然后分发到b1...bn

4、HDFS Sink 此Sink将事件写入到Hadoop分布式文件系统HDFS中。前它支持创建文本文件和序列化文件，对这两种格式都支持压缩。这些文件可以分卷，按照指定的时间或数据量或事件的数量为基础，它还通过类似时间戳或机器属性对数据进行 buckets/partitions 操作。HDFS的目录路径可以包含将要由HDFS替换格式的转移序列用以生成存储事件的目录/文件名。注：使用这个Sink要求hadoop必须已经安装好，以便Flume可以通过hadoop提供的jar包与HDFS进行通信，此版本hadoop必须支持sync()调用。必要属性说明: type HDFS hdfs.path 必填，HDFS 目录路径 (eg hdfs://namenode/flume/webdata/) hdfs.filePrefix FlumeData Flume在目录下创建文件的名称前缀 hdfs.fileSuffix – 追加到文件的名称后缀 (eg .avro - 注: 日期时间不会自动添加) hdfs.inUsePrefix – Flume正在处理的文件所加的前缀 hdfs.inUseSuffix .tmp Flume正在处理的文件所加的后缀实例：

a1.sources=r1a1.sinks=k1a1.channels=c1a1.sources.r1.type=httpa1.sources.r1.port=8888a1.sources.r1.channels=c1a1.channels.c1.type=memorya1.channels.c1.capacity=1000a1.channels.c1.transactionCapacity=1000a1.sinks.k1.type=hdfsa1.sinks.k1.hdfs.path=hdfs://0.0.0.0:9000/pppa1.sinks.k1.channel=c1

c语言sscanf函数的用法是什么

323 2022-11-17

flume之常用sink详解

c语言sscanf函数的用法是什么

linux怎么查看本机内存大小

linux cpu占用率如何看

推荐文章

api接口有哪几种分类及功能

什么是API接口?API接口简单介绍

短信API接口概述，短信API接口的优势

7款快递物流的物流查询API工具，物流快递查询API接口怎么对接？

企业四要素: 了解企业经营成功的关键

什么是语音验证码?,语音验证码平台有哪些

全国工商查询系统怎么查企业名录

哪些平台提供实名认证的接口？

PHP如何调用API接口?

如何使用百度天气预报API接口?

最近发表

热评文章

数据接口api（数据接口API开发平台）

数据开放接口api（数据服务api开发）

Python爬虫教程：爬取酷狗音乐（python爬取

hbuilder怎么更改字体大小和颜色

直播平台api接口 - 构建卓越的直播平台

实时股票数据api接口（股票实时行情api接口）

flume之常用sink详解

微信扫一扫：分享

推荐文章

最近发表

热评文章