Spark 的数据本地性有哪几种?

Spark 中的数据本地性有三种:

1)PROCESS_LOCAL 是指读取缓存在本地节点的数据

2)NODE_LOCAL 是指读取本地节点硬盘数据

3)ANY 是指读取非本地节点数据


通常读取数据 PROCESS_LOCAL>NODE_LOCAL>ANY,尽量使数据以PROCESS_LOCAL 或 NODE_LOCAL 方式读取。其中 PROCESS_LOCAL 还和cache 有关,如果 RDD 经常用的话将该 RDD cache 到内存中,注意,由于cache 是 lazy 的,所以必须通过一个 action 的触发,才能真正的将该 RDD cache 到内存中。


蓝海大脑 京ICP备18017748号-1