对于高性能AI芯片的算力而言，峰值性能和实际性能是一回事吗？

对于英伟达基于12纳米工艺的T4和V100 GPU，它们的INT8峰值性能可以达到130TOPS和62.8TOPS。在实际的AI推理应用中，特别是对实时性要求比较高的应用里（比如batch-32或者更低时），实验表明对于各种矩阵大小和数字表达形式（fp32、fp16、int8），实测结果都无法达到GPU理论上的峰值性能。实际上，这里测到的实际算力可能只有峰值性能的10分之一甚至更低。

从峰值性能来看，FPGA可能比不上GPU，但是我们可以通过改进FPGA的架构和编程方法，使得FPGA在某些AI应用的性能上可以和GPU相比，甚至超过GPU。曾做实验详细阐述英特尔的Stratix10 NX FPGA针对AI应用做出的一系列架构调整和改进，并且比较了它和GPU在实际应用中能够取得的实际算力。研究通过一系列的基准测试和对比，证明了对于实时性要求比较高的AI推理应用，这个S10 NX FPGA比英伟达的T4和V100 GPU在性能上平均提升了24.2倍和11.7倍。