全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  应聘面试  >  大数据面试题

Flume高可用事务机制(重点)

发布时间:2022-09-01 15:59:47
发布人:wjy

source到channel是put事务,channel到sink是take事务 flume基于事务传输event(批量传输),使用两个独立的事务分别处理source到channel和channel到sink,失败时会将所有数据都回滚到source或channel进行重试。

该事务机制遵循'最少一次'语义,因此数据绝不会丢失,但有可能重复。

 source-channel之间的重复可以靠TailDirSource自带的断点续传功能解决; channel-sink之间的重复,可以延长等待时间,或者设置UUID拦截器,然后在redis里维护一个布隆表来使下游实时应用去重。

Flume高可用事务机制

相关文章

大数据kafka常见面试题——如何搭建kafka?

2023-08-07

大数据kafka常见面试题——kafka中如何避免重复消费

2023-08-04

大数据面试题之多种方法创建dataframe

2023-08-02

大数据Hadoop面试题——Hadoop干什么用的?

2023-08-01

大数据行业2年工作经验的面试题有哪些?

2023-07-28

大数据kafka面试题——kafka和flume的区别是什么?

2023-07-27
在线咨询 免费试学 教程领取