探秘英伟达显卡的制造之路 | 英伟达断供GPU,中国大模型何去何从?

★AI,人工智能;大数据;L40S;H100;H800;A100;A800;Gaudi 2;Gaudi 3;MI250X;MI300;L40;Ascend 910;美光;DRAM;DUV;芯片禁令;数据湖;数据仓库;通用大模型;行业大模型;CV大模型;多模态大模型;台积电;TSMC


在当今时代,人工智能技术正以前所未有的速度发展,推动着各个领域的创新与变革。作为人工智能技术的核心引擎之一,高性能GPU扮演着至关重要的角色。在这个领域,英伟达的H100无疑是一款备受瞩目的高端产品。它针对高性能计算和人工智能应用而设计,具备强大的计算能力和高内存容量,以及先进的互连技术,可以有效提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理任务。


然而,最近美国政府宣布的对半导体制造和人工智能技术的限制措施,特别是针对中国的严格限制,给中国半导体产业和人工智能技术的应用带来了重大影响。为了应对这些限制,中国需要采取一系列对策,包括加强自主研发、推动产业升级、拓展市场空间等。


蓝海大脑大模型训练平台是一款基于高性能计算技术的AI训练平台,帮助用户快速构建和训练大型AI模型。该平台采用先进的计算和存储技术,提供高达数十TB的内存容量和数千个计算核心,显著提高训练效率。此外,还提供丰富的工具和库,以帮助用户更好地管理和优化训练过程。


英伟达显卡是如何制造?


英伟达H100是一款针对高性能计算和人工智能应用的高端GPU产品,具有强大的计算能力和高内存容量,以及先进的互连技术,可以提升集群中的计算效率,加速深度学习、计算机视觉、自然语言处理等领域的AI训练和推理等计算密集型任务。


H100采用全新的Hopper架构,拥有高达800亿个晶体管,相比上一代A100,其SM数量从108个提升到132个,带来2倍的性能增益。每个SM配备128个FP32 CUDA Core,并配备第四代Tensor Core,相比于A100的稠密或稀疏运算的原始性能提升2倍。内存容量高达40GB,支持第四代NVIDIA NVLink和PCIe 5.0,具备更高的数据传输带宽和更快的计算速度,可以实现快速的GPU到GPU通信,提升大型模型的训练速度。相比上一代A100,H100的FP8算力提升4倍,高达4000TFlops(每秒4000万亿次)。


那么H100是如何制造的呢?让我们一起探究H100显卡的制造过程和它如何成为全球热门的商品。


一、H100显卡的基本构成


H100显卡主要由四个部分组成:逻辑芯片、HBM储存芯片、供电模块和散热模块。


逻辑芯片是H100显卡的核心部分。814平方毫米,比一个眼镜片略小。主要负责处理图形运算和计算任务。这个小小的芯片集成了数十亿个晶体管,是现代科技的结晶。


围绕着逻辑芯片的是六块HBM储存芯片(由韩国厂商SK海力士独家提供),每块储存芯片的大小跟指甲盖差不多,共同为显卡提供大量的存储空间和数据传输速度。


除此之外,供电模块和散热模块也是H100显卡不可或缺的部分。高效的供电模块能够确保显卡在运行时拥有稳定的电力供应,而强大的散热模块则能够确保显卡在长时间高负荷运行时不会过热,从而保持良好的性能。


二、H100显卡是如何被制造的?


H100显卡的核心部分是逻辑芯片,由英伟达位于美国加利福尼亚州圣克拉拉的总部设计和制造。这座科技感十足的大楼占地约125万平方英尺,造价高达9.2亿美元。在这里,平均年薪20万美元的软硬件工程师负责设计英伟达的所有GPU,从Tesla到Hopper架构,从V100到H100。


在完成核心逻辑芯片的设计和制造后,英伟达将接力棒交给位于台湾的台积电。台积电是全球最大的半导体制造公司之一,负责制造H100的核心逻辑芯片。台积电的制造工艺非常先进,采用5nm制程工艺,由位于台南科学园区北园二路的台积电18号工厂生产。


台积电使用CoWoS技术将一颗核心逻辑芯片和六颗HBM芯片编成一组,然后将它们封装到一张12寸的硅片上。这个过程非常复杂,需要高超的工艺技巧和精密的操作。


台积电将封装好的一大六小的芯片交给另一家公司富士康,由富士康把外围的电路和芯片装好后,一块价值堪比等重量黄金的H100板卡就出炉了。根据上面的流程,我们可以计算一下H100的纯物料成本:核心逻辑芯片200美元,HBM内存芯片1500美元,CoWoS封装700美元,其他物料大概500美元,加起来大概在3000美元左右。现在一张H100官方售价是35000美元,黑市上一度可以卖到5万美金,加价十几倍,毛利率超过了90%。


三、H100显卡为何如此受欢迎?


英伟达凭借其精湛的技术和卓越的制造能力,成为全球领先的芯片制造商之一。H100显卡是英伟达最先进的显卡之一,同时也是目前市场上最热门的显卡之一。其高昂的价格和稀缺性使得其成为一种硬通货。


在2023年8月3日,美国初创公司Coreweave宣布了一项令人瞩目的融资,他们通过抵押手中的H100显卡向华尔街获得了23亿美元的债务融资。Coreweave这家公司,自2017年由三位大宗商品交易员创立以来,便在挖矿领域表现出色,后转型为自建数据中心,为客户提供算力服务。他们与英伟达建立了深厚的合作关系,并能够获取H100的供货。


令人瞩目的是,居然可以用H100这种本质上是电子产品的抵押物来借到资金,这无疑凸显了H100的硬通货属性。不止如此,Coreweave之前通过股权融资累计融到5.8亿美元。然而,他们的账上不可能有价值23亿美金的H100显卡来做抵押。但华尔街敢于放贷的原因在于他们手上有英伟达的H100承诺供货合同,凭借此合同便能从银行套出巨额贷款,不禁让人联想到当年通过拿地合同就能套出银行资金的房地产开发商。


从货币经济学的角度来看,H100不仅具备硬通货属性,还具备货币创造属性。英伟达通过扶持像Coreweave这样的GPU云服务商,通过供货合同让他们从银行套取资金,进而购买更多的H100显卡,锁定未来的显卡需求量。这种模式已经超越传统硬件公司的商业模式,马克思曾言:“货币天然不是H100,但H100天然是货币”,一款科技硬件竟能达到如此高度,可以说是前无古人,后无来者。


在AI财富的分配中,黄仁勋独占八斗。英伟达的巨大财富无人能撼动。唯一可能让黄仁勋感到忧虑的地方是一个客户需求众多、愿意花钱,但由于种种原因,H100无法进入的市场。这个市场在哪里呢?


解读人工智能和半导体制造

最新限制及中国对策


10月17日,美国推出新一轮针对21世纪中美技术冷战的举措,主要集中在限制对中国芯片和芯片制造设备的出口。下面主要来谈谈这些举措的影响,包括美国具体设置哪些出口管制措施,中国又采取哪些应对手段来化解这些限制。


一、AI半导体限制


美国最近针对中国的人工智能芯片出口管制措施已经相当严格,充分填补之前政策可能存在的漏洞。此前的测试显示,当前人工智能芯片的聚合双向传输速率可以达到600GB/s,聚合运算吞吐量超过4800TOPs。这意味着芯片公司可以通过稍微降低芯片的双向带宽来规避管制,而实际应用于人工智能任务时,性能下降几乎可以忽略。例如英伟达在其H100和A100芯片基础上进行改进后的H800和A800系列芯片,就采用这种方式设计(已经大量出口到中国,单台出货量达到数十万颗)。


 image.png

Lennart Heim


填补先前政策中的漏洞意味着需要完全取消对芯片双向带宽的限制,直接影响像A800、H800这样的芯片发挥最大效能,也意味着英特尔的Gaudi 2、Gaudi 3、以及AMD的MI250X、MI300等芯片都会被管制禁止出口。在运算吞吐量达到4800TOPs时,人工智能计算需求大致保持不变,这被称为“总处理性能”(TPP)。


尽管对芯片总体性能的限制非常重要,但政府意识到这仍然存在多个漏洞。例如,可以很容易设计出单个芯片性能低于阈值,但当大量芯片在高带宽互联时,整体系统轻松超过性能阈值。


因此,新增一个性能密度(TPP除以芯片面积)阈值的限制,防止芯片面积较小、绝对计算能力较低但计算密度、效率仍高的芯片出口。绝对限制性能密度为5.92,允许的密度为3.2。并设置多级的性能密度控制级别。


 image.png

CSIS


对GPU芯片施加的严格限制新规完全出乎市场和芯片厂商(如英伟达)的意料。诸如L40S之类的芯片被完全禁止,这些芯片原本利用买家只关注顶级规格的心理。几个月前的预测显示,CPO、HBM和英伟达的部分芯片将在第四季度被禁止。令人惊讶的是,限制还包括L4 GPU。对于4090、L40和AMD MI210等GPU,设置一个较低的标准需要申请许可证。据观察,4090有可能获得许可。


 image.png


此外,新规定要求FP8 matmul+ FP16达到320 TFLOPS的累积浮点运算量已经超过RTX 4080的限制标准,因此需要申请许可证。根据密度规则,英伟达需要回退到2017年基于12nm工艺的V100芯片。不能靠填充一堆空白硅片来规避密度规则,因为法规对此有规定。它从根本上禁止了人们目前正在开发的所有高性能ASIC,这意味着大型Transformer模型无法在任何法规允许的硬件上高效运行。


业界已经适应在现有芯片上运行人工智能技术,如英伟达GPU和谷歌TPU。然而,随着对华制裁的实施,一个有趣的结果可能是中国将探索不同于世界其他国家的人工智能技术思路。毕竟,大脑和其中传递的信号也与当前的硬件/软件架构不同。


 image.png

Jim Keller – TensTorrent, interesting talk he gave, even if we don’t agree with the premise


中国将加强对内存计算、神经形态计算等模拟计算方法的投资。尽管这些方法在Transformer或扩散模型上尚未取得突破,但新的模型架构仍值得期待。短期内,华为将发挥关键作用。华为已在中芯国际的N+2工艺节点上推出一款7nm的ASIC芯片,该芯片继承2019年发布的Ascend 910。据传,这款芯片采用分散的小芯片配备HBM存储。


image.png


华为的Ascend 910已经超出当前规定的范围,因此国产后续产品也将超越英伟达合法进入中国的任何产品。尽管有人认为中芯国际不具备相应能力,但其14nm工艺已经用于百亿亿级超级计算机的制造。新的N+2工艺(7nm)产能接近每月20,000片,足以在50%产量下用于数百万个AI加速器。此外,中国正在迅速获得国内生产HBM的能力。


二、晶圆制造设备控制


美国对半导体设备出口管制的调整对人工智能芯片的影响相对较小。尽管在某些方面加强管制,但仍存在一些漏洞,使得应用材料、蓝富利、东京电子、国际集成电路、KLA、安拓、Screen、ASML等设备供应商能够继续向中国出口数百亿美元的设备,其中包括超过70亿美元的DRAM制造设备将运往长江存储。这一数字甚至超过了总部在美国的美光公司在同一制程技术上的投入。长江存储显然也在开发被美国视为受限制的技术。


 image.png

美光D1 Beta是最密集的出货DRAM,它采用DUV SAQP。CXMT在他们的路线图上有D1 Beta


美国的新规定进一步将限制扩大到2.4纳米及以下的覆盖层工具,这影响到ASML用于台积电、英特尔和中芯国际7纳米工艺的1980-i系列机型。美国通过不设最小含量要求的方式,将这些工具的卡盘覆盖层限制在1.5纳米到2.4纳米之间。这意味着如果工具中含有任何美国内容,都将受到限制。通常美国内容的标准是25%,但在这种情况下,只要有任何美国内容就受限。即使ASML试图重新设计工具,也需要多年时间才能摆脱与覆盖、光源相关的美国技术。此规定仅适用于用于“开发”或“生产”“先进节点集成电路”的情况。


三、仅适用于“高级”晶圆厂


这些限制主要针对“先进晶圆厂”,存在漏洞,因为大多数晶圆厂不会被归类为“先进”。因此,晶圆厂可以先表面上建成“成熟”工艺的车间,然后转变为“先进晶圆厂”,如长江存储。这意味着ASML最新型的TWINSCAN NXT:1980Di和Fi系列浸没式光刻机等仍可以出货给成熟工艺的客户。此外,像中芯国际这样的公司可以在SN1和SN2以外的所有晶圆厂接收这些工具,用于7nm制造。未来两年内,中国应当能够实现这些工具的国内维修。除针对“先进晶圆厂”的限制外,一些关键技术如混合键合、封装光学器件、TSV形成和DRAM制造仍处于开放状态。


四、规则协调


许多新规定与荷兰和日本的关键制造设备出口管制相配合。使得美国的出口管制与这些规定保持一致,同时也扩大了对符合最低要求的美国公司或产品的覆盖范围。荷兰开始管制覆盖层小于1.5纳米和多重曝光的光刻机,而美国规定将覆盖层扩大到2.4纳米。荷兰法规还控制其他生产设备,如EUV薄膜和制膜设备、ALD工具;日本的管制措施针对与日本企业相关的工具,如光刻胶/显影剂、掩模检查、蚀刻机、沉积设备、外延生长、清洗工具以及光刻机。美国的新限制已与日本规则保持一致。


蓝海大脑大模型训练平台


蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能I/O扩展,同时可以扩展至万卡AI集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当BMC收到PSU故障或错误警告(如断电、电涌,过热),自动强制系统的CPU进入ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。


在最底层,构建基于英伟达GPU的全场景AI基础设施方案,适用于“端、边、云”等各种应用环境。帮助开发者更快速、更高效地构建和部署AI应用。

 

image.png


一、为什么需要大模型?


1、模型效果更优


大模型在各场景上的效果均优于普通模型。


2、创造能力更强


大模型能够进行内容生成(AIGC),助力内容规模化生产。


3、灵活定制场景


通过举例子的方式,定制大模型海量的应用场景。


4、标注数据更少


通过学习少量行业数据,大模型就能够应对特定业务场景的需求。


 image.png


二、平台特点


1、异构计算资源调度


一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括CPU、GPU等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。


2、稳定可靠的数据存储


支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。


3、高性能分布式网络


提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。


4、全方位安全保障


在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。


三、常用配置


1、CPU:


Intel Xeon Gold 8358P 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W


Intel Xeon Platinum 8350C 32C/64T 2.6GHz 48MB,DDR4 3200,Turbo,HT 240W


Intel Xeon Platinum 8458P 28C/56T 2.7GHz 38.5MB,DDR4 2933,Turbo,HT 205W


Intel Xeon Platinum 8468 Processor 48C/64T 2.1GHz 105M Cache 350W


AMD EPYC™ 7742 64C/128T,2.25GHz to 3.4GHz,256MB,DDR4 3200MT/s,225W


AMD EPYC™ 9654 96C/192T,2.4GHz to 3.55GHz to 3.7GHz,384MB,DDR5 4800MT/s,360W


2、GPU:


NVIDIA L40S GPU 48GB


NVIDIA NVLink-A100-SXM640GB


NVIDIA HGX A800 80GB


NVIDIA Tesla H800 80GB HBM2


NVIDIA A800-80GB-400Wx8-NvlinkSW×8



蓝海大脑 京ICP备18017748号-1