对于高性能AI芯片的算力而言,峰值性能和实际性能是一回事吗?
对于英伟达基于12纳米工艺的T4和V100 GPU,它们的INT8峰值性能可以达到130TOPS和62.8TOPS。在实际的AI推理应用中,特别是对实时性要求比较高的应用里(比如batch-32或者更低时),实验表明对于各种矩阵大小和数字表达形式(fp32、fp16、int8),实测结果都无法达到GPU理论上的峰值性能。实际上,这里测到的实际算力可能只有峰值性能的10分之一甚至更低。
从峰值性能来看,FPGA可能比不上GPU,但是我们可以通过改进FPGA的架构和编程方法,使得FPGA在某些AI应用的性能上可以和GPU相比,甚至超过GPU。曾做实验详细阐述英特尔的Stratix10 NX FPGA针对AI应用做出的一系列架构调整和改进,并且比较了它和GPU在实际应用中能够取得的实际算力。研究通过一系列的基准测试和对比,证明了对于实时性要求比较高的AI推理应用,这个S10 NX FPGA比英伟达的T4和V100 GPU在性能上平均提升了24.2倍和11.7倍。
蓝海大脑 京ICP备18017748号-1