大数据面试题:经典面试题答疑(十四)
1. 数据倾斜
答案:避免热点key设计,双keyby设计
2. checkpoint优化
答案:
1)降低Source的并发度、拉取频率、拉取量
2)提高checkpoint发送频率
3)提升同是处理线程数(实操)
4)提高checkpoint超时时间
3.如何保证数据质量(数仓)?
答案:数据质量:指我们数据加工、转换、计算等整个流程中的数据正确性,主要体现在ODS层和ADS层急需要数据质量,ODS主要判断ODS中的数据和业务库中的数据是否一致(条数),ADS层主要是看最终指标是否正确,也即入口和出口一定把质量监控好。
1)大公司就可以说是公司自研的数据质量系统来保障数据质量,保证ODS同步数据是否多少、可以配置ODS层数据量为上游数据的百分比、可以配置告警。如:业务库订单表今天3000万条,但是采集到ODS层2000万条,配置告警规则为业务库orders/ods层orders=100%,这个时候肯定就要触发告警,因为订单涉及到钱,一条数据都不能丢。行为日志可以丢一些,自行根据需求设置即可。
2)小公司,就是将1步骤中的实现过程自己实现,比如第一个版本使用Shell脚本自己实现ODS层和ADS层数据质量监控的;第二版本自己写的web项目来对数据质量监控,主要实现数据条数、同环比指标的一些监控。或者使用开源的框架:Griffin或DolphinScheduler 3.0就有数据质量功能了。
4.女生学习大数据技术可以吗,会不会受到歧视?
答案: 女生学习大数据技术可以吗,会不会受到歧视? - 拥抱大数据的回答 - 知乎
5.更新大数据随堂视频(zookeeper-功能介绍)
答案:zookeepr-功能介绍 - 拥抱大数据的视频 - 知乎
6.更新大数据随堂视频(zookeeper-集群搭建)
答案:zookeeper-集群搭建 - 拥抱大数据的视频 - 知乎
更多关于大数据培训的问题,欢迎咨询千锋教育在线名师。千锋教育拥有多年IT培训服务经验,采用全程面授高品质、高体验培养模式,拥有国内一体化教学管理及学员服务,助力更多学员实现高薪梦想。