Spark 使用 parquet 文件存储格式能带来哪些好处?
1)如果说 HDFS 是大数据时代分布式文件系统首选标准,那么 parquet 则是整个大数据时代文件存储格式实时首选标准。
2)速度更快:从使用 spark sql 操作普通文件 CSV 和 parquet 文件速度对比上看,绝大多数情况会比使用 csv 等普通文件速度提升 10 倍左右,在一些普通文件系统无法在 spark 上成功运行的情况下,使用 parquet 很多时候可以成功运行。
3)parquet 的压缩技术非常稳定出色,在 spark sql 中对压缩技术的处理可能无法正常的完成工作(例如会导致 lost task,lost executor)但是此时如果使用 parquet 就可以正常的完成。
4)极大的减少磁盘 I/o,通常情况下能够减少 75%的存储空间,由此可以极大的减少 spark sql 处理数据的时候的数据输入内容,尤其是在 spark1.6x 中有个下推过滤器在一些情况下可以极大的减少磁盘的 IO 和内存的占用,(下推过滤器)。
5)spark 1.6x parquet 方式极大的提升了扫描的吞吐量,极大提高了数据的查找速度 spark1.6 和 spark1.5x 相比而言,提升了大约 1 倍的速度,在spark1.6X 中,操作 parquet 时候 cpu 也进行了极大的优化,有效的降低了cpu 消耗。
6)采用 parquet 可以极大的优化 spark 的调度和执行。我们测试 spark 如果用 parquet 可以有效的减少 stage 的执行消耗,同时可以优化执行路径。
蓝海大脑 京ICP备18017748号-1