全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  技术干货

Spark-Streaming的基本原理以及预写日志机制和checkpoint(二)

发布时间:2022-08-31 16:08:06
发布人:qyf

Spark-Streaming的基本原理

  有两种数据需要被进行checkpoint:

  1.元数据checkpoint—-将定义了流式计算逻辑的信息,报错到容错的存储系统上,比如HDFS

  当运行Spark—Streaming应用程序的Driver进程所在的节点失败时,该信息可以用于进行恢复。

  元数据信息包括了:

  1.1:配置信息—创建Spark-Streaming应用程序的配置信息,比如SparkConf

  1.2:DStream的操作信息—-定义了Spark-Stream应用程序的计算逻辑的DStream操作信息

  1.3:未处理的batch信息—-哪些job正在排队,还没处理的batch信息。

  2.数据checkpoint—将实时计算过程中产生的RDD的数据保存到可靠的存储系统中

  对于一些将多个batch的数据进行聚合的,有状态的transformation操作,这是非常有用的,

  在这种tranformation操作中,生成的RDD是依赖与之前的batch的,这会导致随着时间的推移,Rdd的依赖。

  链条越来越长,要避免由于依赖链条越来越长,导致一起变得越来越长的失败恢复时间,有状态的transformation

  操作执行过程中间产生的RDD,会定期的被checkpoint盗可靠的存储系统上,比如HDFS,从而削减RDD的依赖链条,进而缩短失败恢复时,RDD的回复时间。

  更多关于“云计算培训”的问题,欢迎咨询千锋教育在线名师。千锋教育多年办学,课程大纲紧跟企业需求,更科学更严谨,每年培养泛IT人才近2万人。不论你是零基础还是想提升,都可以找到适合的班型,千锋教育随时欢迎你来试听。

相关文章

IT驻场与软件外包有什么区别?

IT驻场与软件外包有什么区别?

2023-10-14
ITSS各级别之间有什么联系?

ITSS各级别之间有什么联系?

2023-10-14
什么是软件定义存储(SDS)?

什么是软件定义存储(SDS)?

2023-10-14
DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

DeepMind和OpenAI身后的两大RL流派有什么具体的区别?

2023-10-14

最新文章

常见网络安全面试题:Windows常用的命令有哪些?

常见网络安全面试题:Windows常用的命令有哪些?

2023-10-09
常见网络安全面试题:根据设备告警如何展开排查?

常见网络安全面试题:根据设备告警如何展开排查?

2023-10-09
常见网络安全面试题:mysql加固呢?(数据库加固)

常见网络安全面试题:mysql加固呢?(数据库加固)

2023-10-09
常见网络安全面试题:windows和linux加固?(操作系统加固)

常见网络安全面试题:windows和linux加固?(操作系统加固)

2023-10-09
在线咨询 免费试学 教程领取