SparkStreaming 简介

网友投稿 216 2022-11-17

SparkStreaming 简介

SparkStreaming 是流式处理框架,是 Spark API 的扩展,支持可扩展、高 吞吐量、容错的实时数据流处理,实时数据的来源可以是:Kafka, Flume, Twitter, ZeroMQ 或者 TCP sockets,并且可以使用高级功能的复杂算子来 处理流数据。例如:map,reduce,join,window 。最终,处理后的数据可以 存放在文件系统,数据库等,方便实时展现

例如:假设 batchInterval 为 5 秒,每隔 5 秒通过 SparkStreaming 将 得到一个 DStream,在第 6 秒的时候计算这 5 秒的数据,假设执行任务 的时间是 3 秒,那么第 6~9 秒一边在接收数据,一边在计算任务,9~10 秒只是在接收数据。然后在第 11 秒的时候重复上面的操作。

如果 job 执行的时间大于 batchInterval 会有什么样的问题? 如果接受过来的数据设置的级别是仅内存,接收来的数据会越堆积越多, 最后可能会导致 OOM(如果设置 StorageLevel 包含 disk, 则内存存放 不下的数据会溢写至 disk, 加大延迟 )。

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Flink 的应用场景
下一篇:Spring JPA使用CriteriaBuilder动态构造查询方式
相关文章

 发表评论

暂时没有评论,来抢沙发吧~