目前国内大数据市场产值即将突破30000亿元,数据分析广泛应用于金融、电商、医疗、新零售、物联网、工业等行业。未来人才缺口将达到1400万,因此很多小伙伴想要加入大数据行业。其中有不少小伙伴对大数据培训要学哪些课程不是很清楚,下面将对大数据培训从入门到精通必知技能要点进行介绍。
FIFO:单队列 先进先出 小任务易阻塞;CAPACITY:多队列 各队列资源固定 小任务可同时运行,可弹性使用资源; 每个队列都可以设置最大值,不设置的话可用到整个父队列的资源最大值(正好有空闲时);FAIR:多队列 各队列资源\动态抢占** 小任务可同时运行;队列创建时:除非队列被准确的定义,否则会以用户名为队列名创建队列。
利用DistributedCache将小表分发到各个节点上,在Map过程的setup()函数里,读取缓存里的文件,只将小表的连接键存储在hashSet中。利用DistributedCache将小表分发到各个节点上,在Map过程的setup()函数里,读取缓存里的文件,只将小表的连接键存储在hashSet中。在map()函数执行时,对每一条数据进行判断(包含小表数据),如果这条数据的连接键为空或者在hashSet里不存在,那么则认为这条数据无效,这条数据也不参与reduce的过程。
kafka优缺点,答案:1)只能支持统一分区内消息有序,无法实现全局消息有序2)会丢失数据和重复消费数据;3)对于一个窗口来说,Flink先增量计算,窗口关闭前,将增量计算结果发送给ProcessWindowFunction作为输入再进行处理。
我们在选择如何存储用户标签时,遇到了问题(标签查询速度慢,并且构建不够灵活,标签更新和删除比较麻烦),比如之前用HDFS或者ES存储,后来切换为ClikcHouse,并用BitMap存储,原因如下