为什么 H100 模型 FLOPS 利用率普遍没有 A100 高？

H100 模型的 FLOPS 利用率普遍没有 A100 高可能有几个原因：

1、架构设计：A100 是一款专门为AI工作负载而设计的加速器，它具有更多的 AI 特定硬件和功能，比如 Tensor Cores，可以提高计算效率和深度学习性能。

2、实际的模型训练过程中，除了计算能力之外，还有很多其他因素会影响模型的训练速度，比如数据传输、内存访问、并行计算等。因此，即使两款芯片的 FLOPS 相同，实际的模型训练速度可能仍然存在差异。

3、驱动程序：在不同硬件上的稳定性和兼容性可能有所不同

阅读全文 → 2023-08-08

大模型微调到底有没有技术含量，或者说技术含量到底有多大？

大模型的微调确实需要一定的技术含量。微调是指在一个已经训练好的大型语言模型基础上，通过在特定领域或任务上进行额外的训练，使其更好地适应目标任务或领域的需求。

微调的过程需要深入了解目标任务的特点和数据集，以确定合适的训练策略和参数设置。这包括选择合适的训练数据、设置合理的学习率、调整模型结构、进行适当的正则化等。同时，还需要进行模型评估和调优，以提高微调后模型在目标任务上的性能。

微调的技术含量体现在以下几个方面：

领域知识和理解：了解目标任务的特点、数据集的结构以及所需的输出形式，以

阅读全文 → 2023-08-08

大语言模型大模型的微调一般训练多少epoch不会过拟合？

一般来说，我们可以通过以下几个方法来判断微调的epoch函数：

观察训练集和验证集的损失函数（loss）和准确率（accuracy）的变化曲线，如果训练集的指标持续下降或上升，而验证集的指标开始出现反向变化或者停滞不动，那么可能就是过拟合或者欠拟合的现象，需要及时停止训练或者调整参数.

使用预训练模型（pre-trained model），比如BERT，GPT等，在大规模的数据集上进行了长时间的训练，已经学习到了很多通用的特征和知识，所以在微调的时候只需要少量的epoch就可以达到很好的效果。

阅读全文 → 2023-08-06

为啥 AMD 的 ROCm 没有被广泛使用，Nvidia 的 CUDA 一家独大？

AMD用的是MI210，NVIDIA用的是A100，结果如图（我们仅保留了TorchBench里同时支持training和inference，且在两个GPU上能运行成功的model）。

低于1表示A100性能更好。可以看到，很多model在A100上的表现都比在MI210上要好，但是也有部分在MI210上更好。简单的结论就是能被NVIDIA TensorCore加速的计算在A100上的表现基本都比AMDMI210上的更好。

image.png

而且在我们的实验过

阅读全文 → 2023-08-06

大模型参数量和模型大小怎么换算？

在深度学习领域，模型大小通常是以模型的参数量来衡量的。模型的大小与模型的参数量有直接的关系，但并不是一一对应的关系。模型的参数量指的是模型中需要学习的参数的数量，这些参数是用来定义模型的权重和偏置。

模型的大小可以通过不同的指标来衡量，包括模型文件的大小、内存占用等。模型的大小与参数量的换算并不是一个固定的公式，因为模型的大小还受到模型的架构、数据类型、优化方式等因素的影响。

一般来说，模型的大小与参数量之间存在正相关关系，即模型的参数量越大，模型的大小也会越大。但在实际使用中，模型的大小可能

阅读全文 → 2023-08-04

英伟达将向中国推出芯片A800，可用于替代A100，这款芯片有何优势？

这款芯片的优势就是价格便宜，可以绕开美国的管制政策，向中国大量生产。A800的主要性能与A100完全一样，只把高速互连总线的带宽降低了一些，A800芯片会应用到自动驾驶，用于超级计算机、量子计算等的尖端芯片、技术、设备等。根据英伟达官方媒体报道，由于美国政府对中国实施芯片禁令，英伟达旗下的N100H100两款数据中心加速的GPU实施禁售，所以这两款CPU不得卖给中国，而这次推出的a800芯片，是因为达为中国企业量身定制的一款芯片，在性能参数上，也符合美国的管制政策，只是在多显卡互相连接的性能受到了一点点

阅读全文 → 2023-07-28