数据倾斜怎么解决?1)key 尽量打乱;提高reduce任务数;2)关联查询时,利用分桶和map-side提高查询效率
load data inpath '/hadoop/guozy/data/user.txt' into table external_table;此处是移动(非复制),移动数据非常快,不会对数据是否符合定义的Schema做校验,这个工作通常在读取的时候进行(即Schema on Read)
分区指的就是将数据按照表中的某一个字段进行统一归类,并存储在表中的不同的位置,也就是说,一个分区就是一类,这一类的数据对应到hdfs存储上就是对应一个目录。静态分区数据已经按某些字段分完区放在一块,建表时直接指定分区即可。