Spark-Streaming的基本原理以及预写日志机制和checkpoint（二）-千锋教育

Spark-Streaming的基本原理以及预写日志机制和checkpoint（二）

发布时间:2022-08-31 16:08:06

发布人:qyf

　　有两种数据需要被进行checkpoint：

　　1.元数据checkpoint—-将定义了流式计算逻辑的信息，报错到容错的存储系统上，比如HDFS

　　当运行Spark—Streaming应用程序的Driver进程所在的节点失败时，该信息可以用于进行恢复。

　　元数据信息包括了：

　　1.1：配置信息—创建Spark-Streaming应用程序的配置信息，比如SparkConf

　　1.2：DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息

　　1.3：未处理的batch信息—-哪些job正在排队，还没处理的batch信息。

　　2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中

　　对于一些将多个batch的数据进行聚合的，有状态的transformation操作，这是非常有用的，

　　在这种tranformation操作中，生成的RDD是依赖与之前的batch的，这会导致随着时间的推移，Rdd的依赖。

　　链条越来越长，要避免由于依赖链条越来越长，导致一起变得越来越长的失败恢复时间，有状态的transformation

　　操作执行过程中间产生的RDD，会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条，进而缩短失败恢复时，RDD的回复时间。

　　更多关于“云计算培训”的问题，欢迎咨询千锋教育在线名师。千锋教育多年办学，课程大纲紧跟企业需求，更科学更严谨，每年培养泛IT人才近2万人。不论你是零基础还是想提升，都可以找到适合的班型，千锋教育随时欢迎你来试听。

上一篇Spark-Streaming的基本原理以及预写日志机制和checkpoint（一）

下一篇Spark-Streaming的基本原理以及预写日志机制和checkpoint（三）

IT驻场与软件外包有什么区别?

2023-10-14

ITSS各级别之间有什么联系?

2023-10-14

什么是软件定义存储（SDS）?

2023-10-14

DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

2023-10-14

校区精品课程

互联网前瞻热门课程从入门到成神

全国旗舰校区