存储格式和压缩格式
一般选择ORC+bzip/gzip作为数据源的存储,选择则ORC+Snappy作为中间数据的存储,分区表单文件不大可以采用gzip压缩,桶表需要用bzip或lzo支持分片的方式压缩。设置压缩建表时指定"stored as orc tblproperties ("orc.compress"="gzip")"
分区表和分桶表(重点)
分区表:将数据按照分区字段拆分存储的表,在hdfs中以文件夹的形式分别存放不同分区的数据,可以避免全表查询,提高查询效率
内部表和外部表(重点)
hive外部表是使用external关键字并指定一个hdfs目录创建的表。hive内部表在创建时会在对应hive目录下创建相应的文件夹,外部表则以指定文件夹为数据源创建表。
CTAS查询建表
CREATE [TEMPORARY,EXTERNAL] TABLE [if not exist] [db_name.]name [ROW FORMAT row_format] [STORED AS file_format] AS select_statement 缺点:所有数据类型默认最大范围
html5新增标签有哪些?新增常用标签整理
html5随着多年的发展,现在已经发展成为最重要的标记语言。随着该语言的不断完善,会新增一些标签,那么html5新增标签有哪些呢?html5新增标签主要分为四大类:结构标记、多媒体标记、表单标签、输入标签。具体的运用看一下详细介绍。