全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  应聘面试  >  大数据面试题

必看!拿下这9个大数据面试题,轻松拿下offer

发布时间:2022-08-09 14:33:14
发布人:syq

  1. “消费组中的消费者个数如果超过topic的分区,那么就会有消费者消费不到数据”这句话是否正确?如果正确,那么有没有什么hack的手段?

  答案:正确,可以通过自定义分区分配策略,将消费者指定到某个分区

大数据面试题

  2. 有哪些情形会造成重复消费或消息丢失?

  答案:

  1)当poll部分消息集后,立即提交offset,在这部分消息集处理,可能会发生异常,这就导致部分消息丢失。

  2)位移提交的动作是在消费完所有拉取到的消息之后才执行的,中间可能发生异常,恢复后重新重新拉取,可能会导致重复消费

  3. KafkaConsumer是非线程安全的,那么怎么样实现多线程消费?

  答案:

  1)在每个线程中新建一个KafkaConsumer

  2)单线程创建KafkaConsumer,多个处理线程处理消息(难点在于是否要考虑消息顺序性,offset的提交方式)

  4. 当你使用kafka-topics.sh创建(删除)了一个topic

  答案:

  创建:

  1)会在zookeeper中的/brokers/topics节点下创建一个新的topic节点,如:/brokers/topics/first

  2)触发Controller的监听程序

  3)kafka Controller 负责topic的创建工作,并更新metadata cache

  删除:

  调用脚本删除topic会在zk上将topic设置待删除标志,kafka后台有定时的线程会扫描所有需要删除的topic进行删除

  5. topic的分区数,增减问题

  答案:分区只能增加,不能减少(若是减少分区需要考虑的问题太多,事物性问题,顺序性问题,时间戳问题,但是收益太小),副本可以减少

  6. 内部topic

  _consumeroffsets:作用是保存 Kafka 消费者的位移信息,logCleaner线程来完成清除无用的提交(没有消息消费了,默认5s一直在提交);

  _transactionstate:用来存储事务日志消息

  7. 优先副本选举

  答案:解决当某个主机down机后,部分主机会有多个leader 副本,导致负载不均衡,优先副本选举就是解决此问题,生产上不建议开启,可以手动控制。

  8. 副本怎么同步?

  答案:所谓同步,必须满足两个条件:

  副本节点必须能与zookeeper保持会话(心跳机制)

  副本能复制leader上的所有写操作,并且不能落后太多(卡主或滞后的副本控制由replica.lag.time.max.ms配置)

  利用HW,LEO进行复制同步。

  9. 如果我指定了一个offset,Kafka怎么查找到对应的消息?

  答案:

  1)跳跃表找到分段文件

  2)利用稀疏索引(.index),通过二分法定位到相邻的offset

  3)接着在segment顺序查找

  更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。

相关文章

大数据kafka常见面试题——如何搭建kafka?

2023-08-07

大数据kafka常见面试题——kafka中如何避免重复消费

2023-08-04

大数据面试题之多种方法创建dataframe

2023-08-02

大数据Hadoop面试题——Hadoop干什么用的?

2023-08-01

大数据行业2年工作经验的面试题有哪些?

2023-07-28

大数据kafka面试题——kafka和flume的区别是什么?

2023-07-27
在线咨询 免费试学 教程领取