为什么 H100 模型 FLOPS 利用率普遍没有 A100 高? H100 模型的 FLOPS 利用率普遍没有 A100 高可能有几个原因: 1、架构设计:A100 是一款专门为AI工作负载而设计的加速器,它具有更多的 AI 特定硬件和功能,比如 Tensor Cores,可以提高计算效率和深度学习性能。 2、实际的模型训练过程中,除了计算能力之外,还有很多其他因素会影响模型的训练速度,比如数据传输、内存访问、并行计算等。因此,即使两款芯片的 FLOPS 相同,实际的模型训练速度可能仍然存在差异。 3、驱动程序:在不同硬件上的稳定性和兼容性可能有所不同 阅读全文 → 2023-08-08
大模型微调到底有没有技术含量,或者说技术含量到底有多大? 大模型的微调确实需要一定的技术含量。微调是指在一个已经训练好的大型语言模型基础上,通过在特定领域或任务上进行额外的训练,使其更好地适应目标任务或领域的需求。 微调的过程需要深入了解目标任务的特点和数据集,以确定合适的训练策略和参数设置。这包括选择合适的训练数据、设置合理的学习率、调整模型结构、进行适当的正则化等。同时,还需要进行模型评估和调优,以提高微调后模型在目标任务上的性能。 微调的技术含量体现在以下几个方面: 领域知识和理解:了解目标任务的特点、数据集的结构以及所需的输出形式,以 阅读全文 → 2023-08-08
大语言模型 大模型的微调一般训练多少epoch不会过拟合? 一般来说,我们可以通过以下几个方法来判断微调的epoch函数: 观察训练集和验证集的损失函数(loss)和准确率(accuracy)的变化曲线,如果训练集的指标持续下降或上升,而验证集的指标开始出现反向变化或者停滞不动,那么可能就是过拟合或者欠拟合的现象,需要及时停止训练或者调整参数. 使用预训练模型(pre-trained model),比如BERT,GPT等,在大规模的数据集上进行了长时间的训练,已经学习到了很多通用的特征和知识,所以在微调的时候只需要少量的epoch就可以达到很好的效果。 阅读全文 → 2023-08-06
为啥 AMD 的 ROCm 没有被广泛使用,Nvidia 的 CUDA 一家独大? AMD用的是MI210,NVIDIA用的是A100,结果如图(我们仅保留了TorchBench里同时支持training和inference,且在两个GPU上能运行成功的model)。 低于1表示A100性能更好。可以看到,很多model在A100上的表现都比在MI210上要好,但是也有部分在MI210上更好。简单的结论就是能被NVIDIA TensorCore加速的计算在A100上的表现基本都比AMDMI210上的更好。 image.png 而且在我们的实验过 阅读全文 → 2023-08-06
大模型参数量和模型大小怎么换算? 在深度学习领域,模型大小通常是以模型的参数量来衡量的。模型的大小与模型的参数量有直接的关系,但并不是一一对应的关系。模型的参数量指的是模型中需要学习的参数的数量,这些参数是用来定义模型的权重和偏置。 模型的大小可以通过不同的指标来衡量,包括模型文件的大小、内存占用等。模型的大小与参数量的换算并不是一个固定的公式,因为模型的大小还受到模型的架构、数据类型、优化方式等因素的影响。 一般来说,模型的大小与参数量之间存在正相关关系,即模型的参数量越大,模型的大小也会越大。但在实际使用中,模型的大小可能 阅读全文 → 2023-08-04
英伟达将向中国推出芯片A800,可用于替代A100,这款芯片有何优势? 这款芯片的优势就是价格便宜,可以绕开美国的管制政策,向中国大量生产。A800的主要性能与A100完全一样,只把高速互连总线的带宽降低了一些,A800芯片会应用到自动驾驶,用于超级计算机、量子计算等的尖端芯片、技术、设备等。 根据英伟达官方媒体报道,由于美国政府对中国实施芯片禁令,英伟达旗下的N100H100两款数据中心加速的GPU实施禁售,所以这两款CPU不得卖给中国,而这次推出的a800芯片,是因为达为中国企业量身定制的一款芯片,在性能参数上,也符合美国的管制政策,只是在多显卡互相连接的性能受到了一点点 阅读全文 → 2023-07-28