全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  技术干货

Flink Spark on Yarn 分布式日志收集问题

发布时间:2022-08-12 11:28:54
发布人:syq

  对于Flink,Spark在Yarn上提交的LongTime Job(比如一个批处理作业要运行几个小时或者本身就是实时作业),其作业的运行日志我们不能等到作业结束后,通过Yarn日志聚合后查看,我们希望作业提交后就能够马上看到运行日志(这里注意,你的作业被调度到集群的各个计算节点中,比如你的集群有100个节点,你的作业可能被调度到几十个个节点中),如何能够实时方面的查看所有节点产生的日志呢?

Flink Spark on Yarn 分布式日志

  # 总体思路,无论是spark,flink 都使用log4j记录日志,只不过默认输出是Console和文件,我们通过定义 log4j 文件,将日志实时发送到一个位置,集中管理。

  * 方案1: 定义log4j KafkaAppender,将日志异步发送到Kafka,之后可以将数据发送到ES,通过Kibana查看即可

  * 方案2: 定义log4j SyslogAppender,将日志发送到rsyslog服务器(基于UDP传输,更高效),所有节点日志可以落到本地文件,这样可以在这里通过文件查看日志,当然也可以接上ELK这一套。

  # 方案1比方案2要重一些,因为你需要Kafka集群,而rsyslog非常轻量,并且数据通过UDP协议传输更为高效。

  更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。

相关文章

明道、teambition、Tower.im、Worktile、trello的功能都有哪些?

明道、teambition、Tower.im、Worktile、trello的功能都有哪些?

2023-10-14
反欺诈中所用到的机器学习模型有哪些?

反欺诈中所用到的机器学习模型有哪些?

2023-10-14
强化学习中on-policy与off-policy有什么区别?

强化学习中on-policy与off-policy有什么区别?

2023-10-14
为什么交叉熵可以用于计算代价?

为什么交叉熵可以用于计算代价?

2023-10-14

最新文章

常见网络安全面试题:Windows常用的命令有哪些?

常见网络安全面试题:Windows常用的命令有哪些?

2023-10-09
常见网络安全面试题:根据设备告警如何展开排查?

常见网络安全面试题:根据设备告警如何展开排查?

2023-10-09
常见网络安全面试题:mysql加固呢?(数据库加固)

常见网络安全面试题:mysql加固呢?(数据库加固)

2023-10-09
常见网络安全面试题:windows和linux加固?(操作系统加固)

常见网络安全面试题:windows和linux加固?(操作系统加固)

2023-10-09
在线咨询 免费试学 教程领取