大数据学习笔记-------------------(6)

网友投稿 284 2022-11-17

大数据学习笔记-------------------(6)

第三部分 KAFKA学习

该部分,主要对KAFKA学习笔记进行记录,学习资料翻译自《apache_kafka_tutorial》

该部分为8个章节来学习KAFKA:

Ø  第13章 KAFKA介绍

Ø  第14章 KAFKA工作原理与集群架构

Ø  第15章 KAFKA工作流程

Ø  第16章 KAFKAA安装

Ø  第17章 KAFKA基本操作

Ø  第18章 KAFKA 生产者与消费者实例

Ø  第19章 KAFKA与STORM/SPARK集成

Ø  第20章 KAFKA应用与工具

第13章 KAFKA介绍

13.1 KAFKA简介

在大数据时代,使用数据的数量非常庞大。至于数据,主要有两个挑战:第一个挑战是如何收集大量数据;第二个挑战是分析收集到的数据。为了克服这些挑战,必须需要一个消息系统。

KAFKA是专为分布式高通量系统设计。KAFKA作为一个更传统的消息处理理的替代品,它通常能很好的工作。相较于其他邮件系统,KAFKA具有更高的吞吐量,内置分区,复制和固有的容错性,这使得它非常适合大规模信息处理。

13.2信息系统

消息系统负责从一个应用程序将数据传输到另一个,这样应用程序可以专注于数据,而不用担心如何来分享。分布式消息是基于可靠的消息队列概念。在客服端应用程序和信息系统之间的消息是异步排列的。两种类型的消息模式可供选择:一种是点对点;另一种是发布 - 订阅(pub-SUB)消息系统。大部分的消息传递模式是PUB-SUB。

13.2.1 点对点的信息系统

在一个点对点系统,消息持续保留在队列中。一个或更多的消费者可以消耗队列中的消息,但一个特定的消息最多只有一个消费者。一旦消费者读取队列中消息时,消息就会从队列中消失。该系统的典型例子是订单处理系统,其中每个订单将由一个订单处理器进行处理,但多个订单理器可以同时工作。如下图:

13.2.2 发布-订阅信息系统

在发布-订阅系统,消息持续保存在一个topic中。与点对点系统不同,消费者可以订阅一个或多个topic,即消费这个topic中的所有邮件。在发布-订阅系统,消息生产者被称为发布者和消息的消费者被称为用户。一个真实的例子是Dish TV,它出版不同的频道像体育,电影,音乐等,并且任何人都可以订阅自己的一套频道,随时可订阅到可用频道。

13.3 KAFKA是什么?

ApacheKAFKA是一个分布式的发布-订阅消息系统,强大的队列,该队列能够处理较大的数据量,同时能够把消息从一个端点传递到另一个端点。KAFKA是适用于离线和在线消息处理。KAFKA的消息持续保留在磁盘上和在集群内复制以防止数据丢失。KAFKA构建在ZooKeeper同步服务的顶部。它把Apache Storm和Spark很好的集成在一起实时进行流数据分析。

13.3.1 优点

KAFKA几个优点如下:

Ø  可靠性(Reliability) - KAFKA是分布式、分区、复制和容错的消息系统

Ø  可扩展性(Scalability)-KAFKA消息系统可以进行无故障时间扩展

Ø  耐用性(Durability) - KAFKA采用“分布式提交日志”,这意味着信息尽可能快的保存在磁盘上,因此它是耐用

Ø  性能(Performance) - KAFKA具高吞吐量对于发布、订阅信息而言。甚至在进行大量TB信息的存储时,它保持稳定的性能。

KAFKA非常快,与此同时还能确保零故障和零数据丢失。

13.3.2 使用场景

KAFKA可以在很多场合使用。下面列出一些:

Ø  度量(Metrics) - KAFKA通常用于监测运行数据。这包括收集产生的运行数据。

Ø  日志聚合解决方案(Log Aggregation Solution) - KAFKA可以在整个组织内用于收集多个服务器日志,并把日志格式标准化以至于多个消费者可用。

Ø  流处理(Stream Processing) - 流行的框架,例如Storm和SparkStreaming读取数据从一个topic,进行流数据,然后把处理的数据写入一个可供用户和应用程序使用的新topic。

KAFKA耐用性强对于流处理是非常有用的。

13.3.3 KAFKA需求

KAFKA是一个处理所有的实时数据接收的平台。KAFKA支持低延迟的消息传递,并给出了在机器故障存在容错保证。它具有处理大量不同消费者的能力。KAFKA速度非常快,可以完成 200万写入/秒。KAFKA把所有的数据保留到磁盘,这意味着所有的写入进入到操作系统(RAM)的页面缓存中。这使得它非常有效的将数据从页缓存传输到网络套接字中。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:用磁珠隔地解决静电问题
下一篇:大数据学习笔记-------------------(10)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~