全国旗舰校区

不同学习城市 同样授课品质

北京

深圳

上海

广州

郑州

大连

武汉

成都

西安

杭州

青岛

重庆

长沙

哈尔滨

南京

太原

沈阳

合肥

贵阳

济南

下一个校区
就在你家门口
+
当前位置:首页  >  应聘面试  >  大数据面试题

大数据面试题:hive数据导入

发布时间:2022-06-21 17:04:00
发布人:syq

  1.hive数据导入

  load data inpath '/hadoop/guozy/data/user.txt' into table external_table;

  此处是移动(非复制),移动数据非常快,不会对数据是否符合定义的Schema做校验,这个工作通常在读取的时候进行(即Schema on Read)

  2.内部表与外部表的不同

  1)创建外部表需要添加 external 字段。而内部表不需要。

  2)删除外部表时,HDFS中的数据文件不会一起被删除。而删除内部表时,表数据及HDFS中的数据文件都会被删除。

  3)内部表与外部表如果不指定location,默认使用hive.metastore.warehouse.dir指定的路径

  3. Sort By、Order By、Cluster By,Distribute By,group by

  order by:会对输入做全局排序,因此\只有一个reducer**(多个reducer无法保证全局有序)。只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。

  distribute by:按照指定的字段对数据进行划分输出到不同的reduce中(单纯的分散数据)。

  sort by:局部排序,sort by只是确保每个reduce上面输出的数据有序,当只有一个reduce时,也变成全局排序

333

 

  cluster by:当distribute by 和 sort by 所指定的字段相同时,即可以使用cluster by

  group By Key算子的功能固定,只能输出相同key值的序列,reduceByKey适用于分组排序过程中有数据聚合操作(sum)的情形,在其他场景下可能不适用。

4444

 

  受限于reduce数量,设置reduce参数mapred.reduce.tasks 输出文件个数与reduce数相同,文件大小与reduce处理的数据量有关,网络负载过重 数据倾斜,优化参数hive.groupby.skewindata为true,会启动一个优化程序,避免数据倾斜。更多关于大数据培训的问题,欢迎咨询千锋教育在线名师,如果想要了解我们的师资、课程、项目实操的话可以点击咨询课程顾问,获取试听资格来试听我们的课程,在线零距离接触千锋教育大咖名师,让你轻松从入门到精通。

相关文章

大数据kafka常见面试题——如何搭建kafka?

2023-08-07

大数据kafka常见面试题——kafka中如何避免重复消费

2023-08-04

大数据面试题之多种方法创建dataframe

2023-08-02

大数据Hadoop面试题——Hadoop干什么用的?

2023-08-01

大数据行业2年工作经验的面试题有哪些?

2023-07-28

大数据kafka面试题——kafka和flume的区别是什么?

2023-07-27
在线咨询 免费试学 教程领取