英伟达GPU的tensor core和cuda core有什么区别?

虽然都是核心,但是并不是说一个负责训练一个负责推理。CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运算。


CUDA内核:每一个GPU时钟执行一次值乘法


1 x 1 per GPU clock


TENSOR核心:每个GPU时钟执行一次矩阵乘法


image.png


Tensor Core使用的计算能力要比Cuda Core高得多,这就是为什么Tensor Core能加速处于深度学习神经网络训练和推理运算核心的矩阵计算,能够在维持超低精度损失的同时大幅加速推理吞吐效率。


矩阵-矩阵乘法(GEMM)运算是神经网络训练和推理的核心,本质是在网络互联层中将大矩阵输入数据和权重相乘。每个Tensor核心都在矩阵中运行,并执行以下运算:


D=A*B+C


Turing架构Tensor核心中设计添加了INT8和INT4精度模式,以推断可以容忍量化的工作负载。而Ampere架构GA10x GPU中的新第三代Tensor Core架构可加速更多数据类型,并包括新的稀疏性功能,与Turing架构中的Tensor Core相比,矩阵乘法的速度提高了2倍。


蓝海大脑 京ICP备18017748号-1