sort by 和order by的区别(重点)
发布时间:2022-09-30 15:41:01
发布人:qyf
order by会对输入做全局排序,因此只有一个Reducer(多个Reducer无法保证全局有序),然而只有一个Reducer,会导致当输入规模较大时,消耗较长的计算时间。这样很可能会超过单个节点的磁盘和内存存储能力导致任务失败。
sort by的数据只能保证在同一个reduce中的数据可以按指定字段排序。
使用sort by你可以指定执行的reduce个数(通过set mapred.reduce.tasks=n来指定),对输出的数据再执行归并排序