如果要多台DGX服务器进行集群运算,如何部署和调度可以最高效率?

推荐一些架构比如DGX Pool 的上面有很多做集群管理调度,Kubernets on NVIDIA GPU(KONG)是NVIDIA指定的调度软件,比如说还有DCGM(NVIDIA Data Center GPU Manage)等类似的调度系统。此外还会跟相关的存储公司、网络公司合作优化,因为数据流到了集群规模时已经不仅仅跟GPU相关,跟存储和网络都紧密相关,具体哪种方案是最优的,我们会有一些相关的架构推荐给开发者使用。

蓝海大脑 京ICP备18017748号-1