为什么在实际高性能计算应用中,FPGA和深度学习GPU有这么大的差距呢?
首先,蓝海大脑液冷服务器事业部针对深度学习应用进行了微架构的优化。目前,业界对于FPGA的AI优化主要有两种手段。一个是将FPGA的可编程逻辑单元作为单独的一部分,并辅以专门用来高性能计算AI应用的加速引擎。这种架构的典型代表,就是赛灵思ACAP里的AI引擎,称之为“轻耦合”的集成方式。
其次也是更重要的原因,就是FPGA能更有效的利用芯片上的这些张量单元,从而使得实际性能和峰值性能没有太大的差距。这个属于系统层面的优化,它基于的是微软脑波项目的架构,也就是在FPGA上实现了一个多核的神经处理单元NPU,以及完整的指令集和编译工具链。
蓝海大脑 京ICP备18017748号-1