为啥 AMD 的 ROCm 没有被广泛使用,Nvidia 的 CUDA 一家独大?

AMD用的是MI210,NVIDIA用的是A100,结果如图(我们仅保留了TorchBench里同时支持training和inference,且在两个GPU上能运行成功的model)。


低于1表示A100性能更好。可以看到,很多model在A100上的表现都比在MI210上要好,但是也有部分在MI210上更好。简单的结论就是能被NVIDIA TensorCore加速的计算在A100上的表现基本都比AMDMI210上的更好。


image.png


而且在我们的实验过程中,跑ROCm非常容易,只需要安装对应的pytorch,在model里设置device为cuda(是的,你没有看错),大部分model都可以正常运行。


AMD没有那么多人手来适配消费级的GPU,但是可以看到MI系列的GPU搭配ROCm在一些场景下对NVIDIA的GPU已经有了一战之力。当然也要考虑到,pytorch是重点项目,所以相对于其他应用,AMD有更多预算来做适配。


蓝海大脑 京ICP备18017748号-1