全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+

当前位置:首页 > 北京

Flink 中的Watermark机制

Watermark是一种衡量Event Time进展的机制,可以设定延迟触发,Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现;数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,因此,window的执行也是由Watermark触发的

2022-09-02

Flink支持哪几种重启策略?分别如何配置?

重启策略种类:固定延迟重启策略(Fixed Delay Restart Strategy)故障率重启策略(Failure Rate RestartStrategy)无重启策略(No Restart Strategy)Fallback 重启策略(Fallback Restart Strategy)

2022-09-02

Trigger条件触发功能

可以针对时间大小或者数据量充当条件,在整个窗口未达到标准的时候,进行任务执行,触发运行Job。然后当编写trigger后,就需要对流数据进行判断,满足数据量或者时间后,打开触发方法,执行结果。

2022-09-02

什么是ETL?

1. Nginx的日志可以通过Flume抽取到HDFS上。2. Mysql的数据可以通过 Sqoop 抽取到 Hive 中,同样 Hive 的数据也可以通过 Sqoop 抽取到 Mysql 中。3. HDFS上的一些数据不规整,有很多垃圾信息,可以用Hadoop或者Spark 进行处理并重新存入HDFS中。

2022-09-02

迟到的数据该怎样处理?

一般的app数据采集可能会存在数据上报延时,因此数据会存在两个时间:数据生成的时间和服务器收到的时间。由于我们底层数据都是按时间来做天的分区,那么该用数据生成的时间还是服务器收到的时间? 服务器收到时间。

2022-09-02

热问标签

热门频道

在线咨询 免费试学 教程领取