Rowkey 是一个二进制码流,建议越短越好,一般不超过 16 个字节,主要是出于以下的考虑:数据的持久化文件 HFile 中是按照 KeyValue 存储的,即你写入的数据可能是一个 RowKey 对应多个列族,多个列,但是实际的存储是每个列都会对应 Rowkey 写一遍,即这一条数据有多少个列,就会存储多少遍 Rowkey,这会极大影响 HFile 的存储效率。
10余年的互联网从业经验,参与并主导完成电商平台的搭建、数据仓库的建设、数据中台的开发等项目,实战经验丰富、理论基础扎实。精通数据仓库、用户画像、推荐系统。 目前从事千锋大数据学科授课和课程研发。从事教育6年时间,形成自己独特的授课体系,善于培养学员实际问题解决的能力,善于培养业务思维。理论与实践相结合,让学员在实际项目锤炼中得以掌握扎。
北航软件工程硕士,现任千锋大数据全国教学主管,百度智能云认证高级讲师,10余年企业从业经验和大数据职业教育培训经验,原任职国内大型互联网企业,主导大数据架构、数据服务架构、大数据平台研发、数据分析等工作,历任数十家大型企事业单位大数据培训讲师,参与编著《Hadoop大数据开发实战(慕课版)》书籍,十余次全国高校师资培训大数据讲师、部分高校师资培训讲师,参与高校大数据相关课程研讨,擅长Hadoop生态、数据仓库、Spark生态、Flink、大数据工程项目实践等技术。