必看!拿下这9个大数据面试题,轻松拿下offer
1. “消费组中的消费者个数如果超过topic的分区,那么就会有消费者消费不到数据”这句话是否正确?如果正确,那么有没有什么hack的手段?
答案:正确,可以通过自定义分区分配策略,将消费者指定到某个分区
2. 有哪些情形会造成重复消费或消息丢失?
答案:
1)当poll部分消息集后,立即提交offset,在这部分消息集处理,可能会发生异常,这就导致部分消息丢失。
2)位移提交的动作是在消费完所有拉取到的消息之后才执行的,中间可能发生异常,恢复后重新重新拉取,可能会导致重复消费
3. KafkaConsumer是非线程安全的,那么怎么样实现多线程消费?
答案:
1)在每个线程中新建一个KafkaConsumer
2)单线程创建KafkaConsumer,多个处理线程处理消息(难点在于是否要考虑消息顺序性,offset的提交方式)
4. 当你使用kafka-topics.sh创建(删除)了一个topic
答案:
创建:
1)会在zookeeper中的/brokers/topics节点下创建一个新的topic节点,如:/brokers/topics/first
2)触发Controller的监听程序
3)kafka Controller 负责topic的创建工作,并更新metadata cache
删除:
调用脚本删除topic会在zk上将topic设置待删除标志,kafka后台有定时的线程会扫描所有需要删除的topic进行删除
5. topic的分区数,增减问题
答案:分区只能增加,不能减少(若是减少分区需要考虑的问题太多,事物性问题,顺序性问题,时间戳问题,但是收益太小),副本可以减少
6. 内部topic
_consumeroffsets:作用是保存 Kafka 消费者的位移信息,logCleaner线程来完成清除无用的提交(没有消息消费了,默认5s一直在提交);
_transactionstate:用来存储事务日志消息
7. 优先副本选举
答案:解决当某个主机down机后,部分主机会有多个leader 副本,导致负载不均衡,优先副本选举就是解决此问题,生产上不建议开启,可以手动控制。
8. 副本怎么同步?
答案:所谓同步,必须满足两个条件:
副本节点必须能与zookeeper保持会话(心跳机制)
副本能复制leader上的所有写操作,并且不能落后太多(卡主或滞后的副本控制由replica.lag.time.max.ms配置)
利用HW,LEO进行复制同步。
9. 如果我指定了一个offset,Kafka怎么查找到对应的消息?
答案:
1)跳跃表找到分段文件
2)利用稀疏索引(.index),通过二分法定位到相邻的offset
3)接着在segment顺序查找
更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。