全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+

当前位置:首页 > 大数据面试题

Spark读取MySQL大表超时问题

场景为Spark读取一张MySQL表(innodb引擎), 数据量8000万,无自增ID,业务中一个字段为(订单ID)主键。要将该表数据读取后写入到HDFS。

2022-08-11

大数据面试题:ProducerRecord和消息发送到broker

如果 key 不为 null,那么默认的分区器会对 key 进⾏哈希(采⽤ MurmurHash2 算法,具备 ⾼运算性能及低碰撞率),最终根据得到的哈希值来计算分区号,拥有相同 key 的消息会被写⼊同⼀个分区。如果 key 为 null,那么消息将会以轮询的⽅式发往主题内的各个可⽤分区。

2022-08-09

大数据面试题:原理、消费者、文件分布分别是什么?

可以订阅多主题,可以订阅指定分区,可以暂停和重新启用某个分区消费,指定offset消费。在旧消费者客户端中,消费位移是存储在 ZooKeeper 中的。⽽在新消费者客户端中,消费位移存储在 Kafka 内部的主题_consumeroffsets 中。

2022-08-09

大数据面试题:MapReduce的join过程及hive的SQL解析过程

利用DistributedCache将小表分发到各个节点上,在Map过程的setup()函数里,读取缓存里的文件,只将小表的连接键存储在hashSet中。利用DistributedCache将小表分发到各个节点上,在Map过程的setup()函数里,读取缓存里的文件,只将小表的连接键存储在hashSet中。在map()函数执行时,对每一条数据进行判断(包含小表数据),如果这条数据的连接键为空或者在hashSet里不存在,那么则认为这条数据无效,这条数据也不参与reduce的过程。

2022-06-29

大数据面试题:经典面试题答疑集合

kafka优缺点,答案:1)只能支持统一分区内消息有序,无法实现全局消息有序2)会丢失数据和重复消费数据;3)对于一个窗口来说,Flink先增量计算,窗口关闭前,将增量计算结果发送给ProcessWindowFunction作为输入再进行处理。

2022-06-29

热问标签

热门频道

在线咨询 免费试学 教程领取