英伟达NVIDIA为何可以在高性能计算GPU中处于不败地位？

英伟达 | GTC2022 | 高性能计算

NVIDIA | RTX4090 | 液冷服务器

在东数西算、生命科学、遥感测绘、地质勘探、真空羽流、冷冻电镜等技术的快速发展下，高性能计算的发展逐渐被人们所重视。GTC 2022会上指出高性能计算是推动科学发展的关键工具之一。

昨天GeForce RTX 4090显卡正式公布，是全新GeForce RTX 40系列的旗舰产品，也是全球首款基于全新NVIDIA Ada Lovelace架构。与上一代采用DLSS 2的RTX 3090 Ti相比，采用DLSS 3的RTX 4090的性能提升可达4倍。RTX 4090具有760亿个晶体管、16384个CUDA 核心和 24GB 高速美光 GDDR6X 显存。

本文将从英伟达为何在高性能计算中处于不败地位、高性能计算发展趋势、以及高性能计算解决方案为大家解读。

微信图片_20220922100554.jpg

高端GPU：英伟达独角戏？

作为通用计算的“加速神器”——高端GPU正在成为大型数据中心、人工智能、超算等领域的刚需。英伟达在高端GPU市场长期占据主导地位，市场份额一度超过90%。目前国内企业要突破英伟达等国外公司的垄断还有很长的路要走。而国内基于架构创新的DSA（针对特定领域的可编程处理器）芯片产品日益丰富，可能会带来一些曙光。

高端GPU与传统GPU“泾渭分明”
传统GPU聚焦图像学，关注帧数、渲染逼真度、对于真实场景的映射程度等指标，主要用于运行游戏、专业图像处理、加密货币处理等场景。而高端GPU是用于计算加速的芯片产品，专注于基础科学等超算领域和训练、推理等大规模人工智能计算场景。
衡量高端GPU的主要维度是通用性、易用性和高性能。通用硬件架构应该足够灵活，以适应人工智能的迭代算法和场景。易用性是指开发门槛更低，开发者更容易上手，结合实际场景进行定制化开发。高性能是指芯片产品的基本性能和性价比必须达到国际先进水平，才能进行市场开拓。

算力往往是市场对GPU性能优劣的“第一印象”。但高端GPU的性能不等于纸面性能，尤其不能用单一性能的纸面数据来衡量。

在实际使用的过程中，GPU的通用性、易用性、实际性的重要程度远大于纸面标出的算力这一单一性能。纸面指标标得再高，也要关注内存和带宽够不够，以及芯片之间的互联等问题解决得好不好。用单一性能来衡量GPU是否高端，是一个常见的误区。

高性能计算将是主要“竞技场”

长期以来，英伟达一直主导着高端GPU市场，市场份额超过90%，尤其是在人工智能计算领域。到目前为止，英伟达已经推出Volta、Ampere、Hopper等用于高性能计算和AI训练的架构，并在此基础上推出了V100、A100、H100等高端GPU。面向向量的双精度浮点运算能力从7.8 TFLOPS一路走到30 TFLOPS。

作为全球第二大独立GPU供应商，AMD虽在高端GPU的整体份额与英伟达存在差距，但在超算领域闯出了一片天。在最新全球超级计算机TOP500榜单上，世界上最快的超级计算机橡树岭国家实验室（ORNL）前沿、世界排名第三的超级计算机LUMI，都采用了AMD EPYC处理器和AMD Instinct MI250X GPU加速器。

AMD在超算领域的亮眼表现，是建立在针对性的软硬件设计上，基于CDNA 2架构的GPU加速器、ROCm软件平台与开源应用程序资源中心AMD Infinity Hub的组合，构成了对于科研人员更加友好的硬件性能和编程环境。

虽然直接使用GPU进行高性能或AI计算更方便，但上层应用降本增效的核心需求对底层算力提出了更高的要求。国外AI创业公司推出的AI芯片往往基于一种新的架构，全面提升并侧重优化并行计算能力。国内领先的AI芯片公司也出于同样的考虑，推出了一系列基于DSA架构的人工智能计算芯片。

在国内市场，基于架构创新的DSA芯片产品日益丰富。如华为自研的面向AI计算的架构特色达芬奇，昆仑芯科技推出的第一代架构XPU-K和第二代架构XPU-R，燧原科技的自研架构GCU-CARA等，都已经进入规模落地阶段。随着AI计算的应用场景越来越细分和复杂，定制化和异构化DSA有望在下一代计算平台中发挥更大的作用。

微信图片_20220922100545.jpg

高性能计算HPC发展趋势

新应用领域层出不穷

全球灾难性气候事件正在不断增加，提前预测此类事件对保护人类安全越来越重要，因此未来一年与气候预测相关的应用程序将在HPC领域备受关注。此外，随着HPC在云端的使用，将有更多HPC应用于消费导向的软件程序开发，虚拟世界和元宇宙概念的出现，也让HPC迎来新的发展机遇，既可用于游戏（AR/VR）等娱乐应用，也可用于数字孪生等模拟应用。

HPC市场正在扩展新的领域，在传统的模拟和建模过程中加入人工智能（AI）和数据分析技术。新冠疫情的爆发增加了对灵活、可扩展的云端HPC解决方案的需求，这一需求连同各个垂直行业（生命科学、汽车、金融、游戏、制造业、航空航天等）对快速处理数据和高精度日益增长的需求，将会是未来几年推动HPC应用增长的主要因素。AI、边缘计算、5G等技术将拓宽HPC的功能，从而形成新的芯片/系统架构，为各个行业提供高效处理和分析能力。

提高HPC安全性将成为关键

当市场整体的数字化程度提升，则安全风险也将随之增加。越来越多的高性能计算正在远离数据中心，将直接导致无法通过软件补丁处理的攻击数量增加。这给开发团队带来巨大压力，迫使他们紧急推出硬件来解决这些问题，由此缩短硬件设计周期。因此提高开发者的生产效率以紧跟上市需求的步伐将成为下一步布局重点。

HPC处理器架构多样化

随着数据量增加，不仅是安全性，基础设施存储以及数据处理的计算能力必须得到提升。此外，新的架构包括芯片间的连接也是推动新需求所必需的。

受到不断变化的AI工作负载、灵活的计算（CPU、GPU、FPGA、DPU等）、成本、内存和IO吞吐量等因素共同驱动，HPC架构正在经历巨变。微架构层面变得互连更快、计算密度更高存储可拓展、基础设施效率更高、生态友好性、空间管理和安全性更高。从系统的角度来看，下一代HPC架构将出现分解架构和异构系统的爆炸式增长，不同的专用处理架构将集成在单个节点中，在模块之间实现精密、灵活的切换。如此复杂的系统也带来了巨大的验证挑战，尤其是系统的IP或节点、软硬件动态协调、基于工作负载的性能、电源等相关验证。要满足这些验证需求，需要开发新的软硬件验证方法。

移动数据对电力和时间有很大的需求，这是系统管理者现在面临的挑战之一，减少数据移动量将成为未来的一种趋势。我们需要继续扩展资源，利用高级封装和芯片间接口来支持更高性能的设备，即通过使用多裸晶来扩展设备内的处理能力，这在未来一年内有望真正实现。

微信图片_20220922100540.png

高性能计算液冷解决方案

在深度学习、视觉计算、图像渲染、数据科学、机器学习的迅猛发展的大背景下，高性能计算HPC、液冷散热已经不再是少数大公司或大型科研机构的专属要求，而是被越来越多的包括政府、教育科研、遥感测绘、医药研发、小分子研究、细胞治疗、图像识别的客户所需要和接受。

蓝海大脑为满足客户需求，结合行业特点从计算节点、网络、存储、功耗、扩展、散热等方面出发，提出完善的解决方案。

微信图片_20220922100533.png

产品特性

机架式液冷设计，即插即用，快速轻松投入使用；
支持最多9块GPU图形卡和2颗CPU处理器；
机架的存储空间可大大扩展，可用于云存储服务；
液冷系统密度更高、更节能、防噪音效果更好；
高效节能、绿色环保

客户收益

超融合架构承担着计算资源池和分布式存储资源池的作用，极大地简化了数据中心的基础架构，通过软件定义的计算资源虚拟化和分布式存储架构实现无单点故障、无单点瓶颈、弹性扩展、性能线性增长等能力。
通过简单方便的统一管理界面，实现对数据中心计算、存储、网络、虚拟化等资源的统一监控、管理和运维。
超融合基础架构形成的计算资源池和存储资源池直接可以被云计算平台进行调配，服务于OpenStack、EDP、Docker、Hadoop、R、HPC等IaaS、PaaS、SaaS平台，对上层的应用系统或应用集群等进行支撑。
分布式存储架构简化容灾方式，实现同城数据双活和异地容灾。现有的超融合基础架构可以延伸到公有云，可以轻松将私有云业务迁到公有云服务。