除了 A100/H100 ，还有什么英伟达显卡方案可以突破 48G 显存？

针对175B模型，预训练需要2TB的显存，考虑到当前是否存在单卡或双卡2TB的显存，以下是目前主流的四种模型并行化方案，包括数据并行、零冗余数据并行、张量并行和pipeline并行。

数据并行会把完整的模型和优化器分配到每张卡上，零冗余数据并行虽然仍是数据并行，但每张卡只保留一部分优化器，优化器占用会减小到1/n（n为卡数）。张量并行将模型的参数切分到多卡上，计算也切分到多卡上，必要时从多卡收集计算结果，再广播到多卡上。pipeline并行则是将模型的某些层放到某些显卡。此外，pipeline并行还可以与gradient checkpoint技术一起使用，通过在前向传播时不记录全部中间变量，在反向传播时重新计算中间变量，以减少约85%的中间变量占用空间。

蓝海大脑大模型训练平台提供强大的算力支持，包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑，满足大模型训练中张量并行的通信需求。支持高性能I/O扩展，同时可以扩展至万卡AI集群，满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术，当BMC收到PSU故障或错误警告（如断电、电涌，过热），自动强制系统的CPU进入ULFM（超低频模式，以实现最低功耗）。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。