Hopper 如何通过 FP8 进行加速？

NVIDIA Hopper 架构首次发布了速度更快的低精度 AI 训练方法。Hopper Transformer Engine 能够自动分析工作负载，尽可能采用 FP8 并以 FP32 累积结果。

在进行计算密集度较低的推理工作，比如在生产中运行 AI 模型时，TensorFlow 和 PyTorch 等主要框架通过支持 8 位整数实现快速性能，因为这样就不需要使用小数点来完成工作。

好消息是，NVIDIA GPU 支持上述所有精度格式，因此用户可以实现每个工作负载的最优加速。

去年，IEEE P3109 委员会开始为机器学习中使用的精度格式制定行业标准。这项工作可能还需要一到两年的时间才能完成。