Hive数据倾斜-千锋教育

Hive数据倾斜

发布时间:2022-10-08 11:39:17

发布人:qyf

　　MapReduce任务中，Map输出数据按Key Hash分配到Reduce中，由于Key分布不均匀、业务数据本身的特性、建表时考虑不周、某些SQL语句本身就有数据倾斜等原因造成的reduce上的数据量差异过大，如何将数据均匀的分配到各个Reduce中，就是解决数据倾斜的根本所在，举三个例子

　　Map 端聚合

　　-- 设置如下参数即可开启map端聚合，就是在Map端将相同的Key先做一次聚合计算，减少往reduce发送的数据

　　set hive.map.aggr=true

　　GroupBy 产生的数据倾斜

　　-- 设置如下参数，在GroupBy时，生成两个Job,第一个Job给GroupBy的key加随机数，随机分布到Reduce中，每个Reduce做

　　部分聚合操作，先缩小数据量。第二个Job再进行真正的数据处理，完成最终的聚合

　　set hive.groupby.skewindata = true

　　count(distinct)

　　-- count(distinct) 数据倾斜，可以使用 sum + groupby 来完成等价转换，

　　-- 原始SQL

　　select count(distinct uuid) from t1;

　　-- 等价转换SQL，其实就是采用分治思路，我们按照uuid的前n位进行GROUP BY，并做COUNT(DISTINCT )操作，

　　然后再对所有的COUNT(DISTINCT)结果进行求和

　　select sum(agg_part) result from

　　(

　　select substr(uuid,1,3) uuid_part,

　　count(distinct substr(uuid,4)) as agg_part

　　from t1

　　group by substr(uuid,1,3)

上一篇关于我“不用投放获过万流量”这件事

下一篇Redis的缓存穿透、缓存雪崩、缓存击穿

敏捷开发和迭代式开发的根本区别是什么?

2023-10-14

flutter和uni-app在应用层面有什么区别?

2023-10-14

Flutter和 qt的区别都有什么?

2023-10-14

rnn和lstm中batchsize和timestep的区别是什么?

2023-10-14

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区