为什么在实际高性能计算应用中，FPGA和深度学习GPU有这么大的差距呢？

首先，蓝海大脑液冷服务器事业部针对深度学习应用进行了微架构的优化。目前，业界对于FPGA的AI优化主要有两种手段。一个是将FPGA的可编程逻辑单元作为单独的一部分，并辅以专门用来高性能计算AI应用的加速引擎。这种架构的典型代表，就是赛灵思ACAP里的AI引擎，称之为“轻耦合”的集成方式。
其次也是更重要的原因，就是FPGA能更有效的利用芯片上的这些张量单元，从而使得实际性能和峰值性能没有太大的差距。这个属于系统层面的优化，它基于的是微软脑波项目的架构，也就是在FPGA上实现了一个多核的神经处理单元NPU，以及完整的指令集和编译工具链。