NVIDIA DGX-1 如何助力大规模贝叶斯深度学习?

我们利用 NVIDIA DGX-1 重新运行了之前的多卡数据并行程序。同样的深度生成模型在 DGX-1 上利用多 GPU 能达到几乎接近线性的加速比,这比之前的装载多块 TITANX GPU 的超微服务器有了明显的效率提升。


NVIDIA DGX 架构中拥有八块 Tesla P100 GPU,以及优化过后的NVLINK 通信。此过程是通过开源软件 Tensorflow 实现。基于DGX-1 的多卡并行深度卷积生成模型,相比于原有服务器上单机多卡的并行执行效率有了明显提升,训练时间从 0.5-1 周计减少到 20 小时左右。这使加快模型迭代速度,调优算法取得更好结果成为可能。


蓝海大脑 京ICP备18017748号-1