大数据面试题_千锋教育

校区

首页课程师资教程资讯关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

培训课程
师资团队
关于千锋

培训机构
面试题
就业前景

零基础学IT

Spark读取MySQL大表超时问题

场景为Spark读取一张MySQL表(innodb引擎)，数据量8000万，无自增ID，业务中一个字段为(订单ID)主键。要将该表数据读取后写入到HDFS。

2022-08-11

大数据面试题：ProducerRecord和消息发送到broker

如果 key 不为 null，那么默认的分区器会对 key 进⾏哈希(采⽤ MurmurHash2 算法，具备⾼运算性能及低碰撞率)，最终根据得到的哈希值来计算分区号，拥有相同 key 的消息会被写⼊同⼀个分区。如果 key 为 null，那么消息将会以轮询的⽅式发往主题内的各个可⽤分区。

2022-08-09

大数据面试题：原理、消费者、文件分布分别是什么？

可以订阅多主题，可以订阅指定分区，可以暂停和重新启用某个分区消费，指定offset消费。在旧消费者客户端中，消费位移是存储在 ZooKeeper 中的。⽽在新消费者客户端中，消费位移存储在 Kafka 内部的主题_consumeroffsets 中。

2022-08-09

大数据面试题：MapReduce的join过程及hive的SQL解析过程

利用DistributedCache将小表分发到各个节点上，在Map过程的setup()函数里，读取缓存里的文件，只将小表的连接键存储在hashSet中。利用DistributedCache将小表分发到各个节点上，在Map过程的setup()函数里，读取缓存里的文件，只将小表的连接键存储在hashSet中。在map()函数执行时，对每一条数据进行判断(包含小表数据)，如果这条数据的连接键为空或者在hashSet里不存在，那么则认为这条数据无效，这条数据也不参与reduce的过程。

2022-06-29

大数据面试题：经典面试题答疑集合

kafka优缺点，答案：1)只能支持统一分区内消息有序，无法实现全局消息有序2)会丢失数据和重复消费数据；3）对于一个窗口来说，Flink先增量计算，窗口关闭前，将增量计算结果发送给ProcessWindowFunction作为输入再进行处理。

2022-06-29

<1 2 3 4 >

热问标签

HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训

IT培训机构

培训费用、培训周期你关心的都有

就业前景

学会能干什么，IT培训就业前景介绍

零基础学习

零基础学习IT，大神也是零基础起步

面试题

常见经典面试题及答案解析

千锋问问

搜集常见技术关键点，高效答疑

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区

当前位置：首页 > 大数据面试题

Spark读取MySQL大表超时问题

大数据面试题：ProducerRecord和消息发送到broker

大数据面试题：原理、消费者、文件分布分别是什么？

大数据面试题：MapReduce的join过程及hive的SQL解析过程

大数据面试题：经典面试题答疑集合

热问标签

热门频道

IT培训机构

就业前景

零基础学习

面试题

千锋问问

网站地图

校区精品课程

互联网前瞻热门课程 从入门到成神

全国旗舰校区

当前位置：首页 > 大数据面试题

Spark读取MySQL大表超时问题

大数据面试题：ProducerRecord和消息发送到broker

大数据面试题：原理、消费者、文件分布分别是什么？

大数据面试题：MapReduce的join过程及hive的SQL解析过程

大数据面试题：经典面试题答疑集合

热问标签

热门频道

IT培训机构

就业前景

零基础学习

面试题

千锋问问

网站地图

互联网前瞻热门课程从入门到成神