全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  应聘面试  >  大数据面试题

Flink & Spark Streaming区别?

发布时间:2022-09-02 16:59:00
发布人:wjy

- Flink 是标准的实时处理引擎,基于事件驱动。

而 Spark Streaming 是微批(Micro-Batch)的模型

Flink & Spark Streaming区别

- 时间机制,Spark Streaming 只支持Processing Time(处理时间), 而Flink支持更为丰富的时间语义 Processing Time(处理时间),Ingestion Time(摄入时间),Event Time(事件时间),同时支持基于Watermark的乱序事件处理。

另外Spark Sturctured Streaming也支持了Event Time和Watermark乱序事件处理

- 容错机制,对于Spark Streaming而言当前能保证的端到端的语义是At Least Once,也就是可以保证数据不丢失,但是不能保证数据不重复。

而Flink提供了两阶段提交协议来解决端到端的Exactly Once语义。

比如Flink 的Kafka Soure和Sink,借助于两阶段提交协议,Checkpoint,Kafka的事物机制,实现了端到端的Exactly Once。 

另外需要说明的是在业务中并不是一定要使用Flink,而是根据团队整体的技术栈和具体的业务场景来定,比如对于机器学习算法,Spark ML就做的非常好。

相关文章

大数据kafka常见面试题——如何搭建kafka?

2023-08-07

大数据kafka常见面试题——kafka中如何避免重复消费

2023-08-04

大数据面试题之多种方法创建dataframe

2023-08-02

大数据Hadoop面试题——Hadoop干什么用的?

2023-08-01

大数据行业2年工作经验的面试题有哪些?

2023-07-28

大数据kafka面试题——kafka和flume的区别是什么?

2023-07-27
在线咨询 免费试学 教程领取