Spark-Streaming的基本原理以及预写日志机制和checkpoint(二)
有两种数据需要被进行checkpoint:
1.元数据checkpoint—-将定义了流式计算逻辑的信息,报错到容错的存储系统上,比如HDFS
当运行Spark—Streaming应用程序的Driver进程所在的节点失败时,该信息可以用于进行恢复。
元数据信息包括了:
1.1:配置信息—创建Spark-Streaming应用程序的配置信息,比如SparkConf
1.2:DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息
1.3:未处理的batch信息—-哪些job正在排队,还没处理的batch信息。
2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中
对于一些将多个batch的数据进行聚合的,有状态的transformation操作,这是非常有用的,
在这种tranformation操作中,生成的RDD是依赖与之前的batch的,这会导致随着时间的推移,Rdd的依赖。
链条越来越长,要避免由于依赖链条越来越长,导致一起变得越来越长的失败恢复时间,有状态的transformation
操作执行过程中间产生的RDD,会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条,进而缩短失败恢复时,RDD的回复时间。
更多关于“云计算培训”的问题,欢迎咨询千锋教育在线名师。千锋教育多年办学,课程大纲紧跟企业需求,更科学更严谨,每年培养泛IT人才近2万人。不论你是零基础还是想提升,都可以找到适合的班型,千锋教育随时欢迎你来试听。