不需要排序的 hash shuffle 是否一定比需要排序的 sort shuffle 速度快?
不一定,当数据规模小,Hash shuffle 快于 Sorted Shuffle 数据规模大的时候;当数据量大,sorted Shuffle 会比 Hash shuffle 快很多,因为数量大的有很多小文件,不均匀,甚至出现数据倾斜,消耗内存大,1.x 之前 spark 使用hash,适合处理中小规模,1.x 之后,增加了 Sorted shuffle,Spark 更能胜任大规模处理了。
蓝海大脑 京ICP备18017748号-1