除了 A100/H100 ,还有什么英伟达显卡方案可以突破 48G 显存?
针对175B模型,预训练需要2TB的显存,考虑到当前是否存在单卡或双卡2TB的显存,以下是目前主流的四种模型并行化方案,包括数据并行、零冗余数据并行、张量并行和pipeline并行。
数据并行会把完整的模型和优化器分配到每张卡上,零冗余数据并行虽然仍是数据并行,但每张卡只保留一部分优化器,优化器占用会减小到1/n(n为卡数)。张量并行将模型的参数切分到多卡上,计算也切分到多卡上,必要时从多卡收集计算结果,再广播到多卡上。pipeline并行则是将模型的某些层放到某些显卡。此外,pipeline并行还可以与gradient checkpoint技术一起使用,通过在前向传播时不记录全部中间变量,在反向传播时重新计算中间变量,以减少约85%的中间变量占用空间。
蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的AI加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能I/O扩展,同时可以扩展至万卡AI集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当BMC收到PSU故障或错误警告(如断电、电涌,过热),自动强制系统的CPU进入ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI及大数据等领域。
蓝海大脑 京ICP备18017748号-1