全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+

当前位置:首页 > 大数据

HBase系列常见面试题汇总---怎样合理设置HBase RowKey

Rowkey 是一个二进制码流,建议越短越好,一般不超过 16 个字节,主要是出于以下的考虑:数据的持久化文件 HFile 中是按照 KeyValue 存储的,即你写入的数据可能是一个 RowKey 对应多个列族,多个列,但是实际的存储是每个列都会对应 Rowkey 写一遍,即这一条数据有多少个列,就会存储多少遍 Rowkey,这会极大影响 HFile 的存储效率。

2022-08-12

HBase系列常见面试题汇总---给一个场景HBase的RowKey设计

你的题目和描述不一致,你的描述是在说ID-Mapping的问题吗,这和HBase行键设计是两个领域的问题。先说第一个问题HBase行键设计。加盐(随机前缀,hash取模等+原始rowkey拼接, 取数据结合协处理器oprocessor器)

2022-08-12

HDFS 机架感知详解

互联网公司的 Hadoop 集群一般都会比较大,几百台服务器会分布在不同的机架上,甚至在不同的机房。出于保证数据安全性和数据传输的高效性的平衡考虑,HDFS希望不同节点之间的通信能够尽量发生在同一个机架之内,而不是跨机架和跨机房。同时,NameNode 在分配 Block 的存储位置的时候,会尽可能把数据块的副本放到多个机架甚至机房中,防止机架出现事故或者机房出现事故时候的数据丢失问题发生。

2022-08-12

Spark repartition和coalesce的区别

repartition只是coalesce接口中shuffle为true的实现。不经过 shuffle,也就是coaleasce shuffle为false,是无法增加RDD的分区数的,比如你源RDD 100个分区,想要变成200个分区,只能使用repartition,也就是coaleasce shuffle为true。

2022-08-12

Spark groupByKey 和 reduceBykey 区别

reduceByKey 可以接收一个 func 函数作为参数,这个函数会作用到每个分区的数据上,即分区内部的数据先进行一轮计算,然后才进行 shuffle 将数据写入下游分区,再将这个函数作用到下游的分区上,这样做的目的是减少 shuffle 的数据量,减轻负担。

2022-08-12

热问标签

热门频道

在线咨询 免费试学 教程领取