spark 的优化怎么做?
spark 调优比较复杂,但是大体可以分为三个方面来进行
1)平台层面的调优:防止不必要的 jar 包分发,提高数据的本地性,选择高效的存储格式如 parquet
2)应用程序层面的调优:过滤操作符的优化降低过多小任务,降低单条记录的资源开销,处理数据倾斜,复用 RDD 进行缓存,作业并行化执行等等
3)JVM 层面的调优:设置合适的资源量,设置合理的 JVM,启用高效的序列化方法如 kyro,增大 off head 内存等等
蓝海大脑 京ICP备18017748号-1