全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  技术干货

HBase系列常见面试题汇总---给一个场景HBase的RowKey设计

发布时间:2022-08-12 10:41:26
发布人:syq

  你的题目和描述不一致,你的描述是在说ID-Mapping的问题吗,这和HBase行键设计是两个领域的问题。先说第一个问题HBase行键设计。

HBase的RowKey设计

  避免热点的Rowkey设计

  加盐(随机前缀,hash取模等+原始rowkey拼接, 取数据结合协处理器oprocessor器)

  哈希 (rowkey计算md5,sha256等截取前几位+原始rowkey拼接, 不利于scan,但是get能精确定位)

  反转 (rowkey反转)

  例子:

  # 查询某个卖家某段时间内的交易记录

  rowkey = sellerId + timestamp + orderId

  # 如果某个商家卖了很多商品,产生热点,可以如下设计 Rowkey 实现快速搜索

  rowkey = salt + sellerId + timestamp 其中,salt 是随机数。可以支持如下场景, 查询时需要实现一个HBase协处理器(`coprocessors`)),提供高效查询

  - 全表 Scan

  - 按照 sellerId 查询

  - 按照 sellerId + timestamp 查询

  用户多端设备打通,也就是ID-Mapping问题,这是一个大工程,要根据公司的产品和业务做不通的设计。这里说里面一中方式 Spark GraphX通过计算最大连通图可以做这个事情。

  更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。

相关文章

明道、teambition、Tower.im、Worktile、trello的功能都有哪些?

明道、teambition、Tower.im、Worktile、trello的功能都有哪些?

2023-10-14
反欺诈中所用到的机器学习模型有哪些?

反欺诈中所用到的机器学习模型有哪些?

2023-10-14
强化学习中on-policy与off-policy有什么区别?

强化学习中on-policy与off-policy有什么区别?

2023-10-14
为什么交叉熵可以用于计算代价?

为什么交叉熵可以用于计算代价?

2023-10-14

最新文章

常见网络安全面试题:Windows常用的命令有哪些?

常见网络安全面试题:Windows常用的命令有哪些?

2023-10-09
常见网络安全面试题:根据设备告警如何展开排查?

常见网络安全面试题:根据设备告警如何展开排查?

2023-10-09
常见网络安全面试题:mysql加固呢?(数据库加固)

常见网络安全面试题:mysql加固呢?(数据库加固)

2023-10-09
常见网络安全面试题:windows和linux加固?(操作系统加固)

常见网络安全面试题:windows和linux加固?(操作系统加固)

2023-10-09
在线咨询 免费试学 教程领取