Flink 中的Watermark机制
Watermark是一种衡量Event Time进展的机制,可以设定延迟触发,Watermark是用于处理乱序事件的,而正确的处理乱序事件,通常用Watermark机制结合window来实现;数据流中的Watermark用于表示timestamp小于Watermark的数据,都已经到达了,因此,window的执行也是由Watermark触发的
Flink支持哪几种重启策略?分别如何配置?
重启策略种类:固定延迟重启策略(Fixed Delay Restart Strategy)故障率重启策略(Failure Rate RestartStrategy)无重启策略(No Restart Strategy)Fallback 重启策略(Fallback Restart Strategy)
Trigger条件触发功能
可以针对时间大小或者数据量充当条件,在整个窗口未达到标准的时候,进行任务执行,触发运行Job。然后当编写trigger后,就需要对流数据进行判断,满足数据量或者时间后,打开触发方法,执行结果。
什么是ETL?
1. Nginx的日志可以通过Flume抽取到HDFS上。2. Mysql的数据可以通过 Sqoop 抽取到 Hive 中,同样 Hive 的数据也可以通过 Sqoop 抽取到 Mysql 中。3. HDFS上的一些数据不规整,有很多垃圾信息,可以用Hadoop或者Spark 进行处理并重新存入HDFS中。
迟到的数据该怎样处理?
一般的app数据采集可能会存在数据上报延时,因此数据会存在两个时间:数据生成的时间和服务器收到的时间。由于我们底层数据都是按时间来做天的分区,那么该用数据生成的时间还是服务器收到的时间? 服务器收到时间。