写数据流程 - 千锋教育

校区

首页课程师资教程资讯关于

校区精品课程

互联网前瞻热门课程从入门到成神

鸿蒙生态开发 HTML5培训 Java培训 Python培训云计算培训软件测试培训网络安全培训大数据培训物联网培训 Unity培训全媒体营销培训影视剪辑培训游戏原画培训区块链培训商业插画培训产品经理培训 AI机器视觉

全国旗舰校区

不同学习城市同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口 +

培训课程
师资团队
关于千锋

培训机构
面试题
就业前景

零基础学IT

当前位置：首页 > 应聘面试 > 大数据面试题

写数据流程

发布时间:2022-09-02 15:36:08

发布人:wjy

1. 客户端发出请求hdfs dfs -put /etc/profile /qf/data

2. namenode查看维护的目录结构，检查/qf/data是否存在，如不存在直接报错”no such file or directory“，如存在返回给客户端同意上传文件请求，将操作写入日志文件

3. 客户端请求上传第一个块，询问namenode块的存储位置

4. namenode查看自己的datanode池，返回给客户端一个datanode列表

5. 客户端发出请求建立pipeline

6. 客户端先把文件写入缓存，达到一个块的大小时,会在客户端和第一个datanode建立连接开始流式的传输数据，这个datanode会一小部分一小部分（4K）的接收数据然后写入本地仓库，同时会把这些数据传输到第二个datanode，第二个datanode也同样一小部分一小部分的接收数据并写入本地仓库，同时传输给第三个datanode...(在流式复制时，逐级传输和响应采用响应队列来等待传输结果。队列响应完成后返回给客户端)

7. 第一个数据块传输完成后会使用同样的方式传输下面的数据块直到整个文件上传完成。

8. 整个文件完成，namenode更新内存元数据

上一篇Spark Streaming的窗口大小，每个窗口处理的数据量大小。

下一篇读数据流程

相关文章

大数据kafka常见面试题——如何搭建kafka？

大数据kafka常见面试题——kafka中如何避免重复消费

大数据面试题之多种方法创建dataframe

大数据Hadoop面试题——Hadoop干什么用的？

大数据行业2年工作经验的面试题有哪些？

大数据kafka面试题——kafka和flume的区别是什么？

热门频道

IT培训机构

培训费用、培训周期你关心的都有

就业前景

学会能干什么，IT培训就业前景介绍

零基础学习

零基础学习IT，大神也是零基础起步

面试题

常见经典面试题及答案解析

千锋问问

搜集常见技术关键点，高效答疑

网站地图

明晰网站布局，快速定位学习内容

在线咨询免费试学教程领取