48核CPU,当其中10个核满载时,但整体CPU占用率30%时,是否会导致卡顿? 通常情况下,并不会导致系统卡顿。由于CPU共有48个核心,只有10个核心处于满负荷状态,其他核心可以处理其他任务,并且仍有大量空闲资源可供使用。当然具体情况还取决于其他因素,比如系统负载、内存使用情况以及应用程序的优化程度等。 阅读全文 → 2023-08-11
为什么很多新发布的LLM模型默认不用float16呢? 有几个原因可以解释为什么很多新发布的LLM模型默认不使用float16(半精度浮点数): 精度损失:使用float16会导致精度损失,因为它只有16位的有效数字,相比于float32(单精度浮点数)的23位有效数字,精度较低。对于某些任务,如机器翻译或文本生成,精确的数值计算可能是至关重要的,因此使用float32可以更好地保持模型的准确性。 训练稳定性:使用float16可能会导致训练过程中的数值不稳定性。由于float16的范围较小,数值过大或过小可能会导致数值溢出或下溢。这可能会导致梯度 阅读全文 → 2023-08-11
英伟达推出新一代 GH200 超级芯片,将于 2024 年第二季投产,该芯片有何亮点? Nvidia 提供了 DGX GH200 的预计基准测试,其中 NVLink 交换机系统与与 InfiniBand 捆绑在一起的 DGX H100 集群正面交锋。Nvidia 在上述工作负载计算中使用了不同数量的 GPU,范围从 32 到 256,但每个系统在每次测试中都使用了相同数量的 GPU。如您所见,互连性能的爆炸式增长有望带来 2.2 到 6.3 倍的性能提升。 Nvidia 将在 2023 年底前向其主要客户 Google、Meta 和 Microsoft 提供 DGX GH200 参考蓝 阅读全文 → 2023-08-11
深度学习处理图像,能否用除了卷积的其他算法(如傅立叶变换)提取信息? 当前这波深度学习潮出现之前(大概十年前),人们确实在用各种各样人工设计的方法提取图像的特征。比如各种描述物体边缘和纹理的算法。 你当然可以通过傅立叶变换来提取信息。问题在于在你的任务中,图像的频谱特征有多明显。图像和声音不太一样,日常的声音一般在频域的特征比较明显;但对于图像而言,一般在空域的特征比较明显。比如你对一只狗的照片求傅立叶变换,那么这只狗的五官、躯干、爪子,以及背景的树木、房子、天空的信息全都在频域叠加在一起,一团乱。但在空域上却是五官分明、躯干和爪子分明、前景背景分明。除非说你的任务是 阅读全文 → 2023-08-10
如何解释大模型的重复生成现象? 一般来说,条件文本过长,生成的文本过短,再加上如果使用的是greedy decoding,就很容易导致该现象。 原因也很好理解,大模型建模概率一般是一个条件概率,如下:image.png 即,大模型通过前t-1个token作为条件,来预测第t个token的是哪一个,当你的前面的条件文本过长时,大模型的输出的几个短文本会被原始的很长的条件文本淹没,继续预测下一个token的话,在模型看起来可能条件仍然是差不多的(因为对于很长的文本来说几乎没发生变化,只新增了非常短的文本),此时如果使用 阅读全文 → 2023-08-10
为什么说大模型训练很难? 主要的难题在于当问题出现时,如何准确定位问题所在。 以下是一些实际操作中可能遇到的例子:假设你想要尝试100个实验,每个实验的训练成本都很高,比如几千块甚至上万块的GPU。在这种情况下,怎样判断哪些实验最有可能成功呢?另外,如何确定哪些数据值得训练,哪些数据不重要可以舍弃,以及哪些数据加入模型反而会导致效果变差?如果只有英文数据而没有中文数据,应该怎么办呢? 此外,巨大的数据量要存放在哪里,怎样保证存取的速度和机器不会被塞满?如果程序偶尔崩溃了,怎样调试是数据问题、硬件问题还是代码问题?如果是 阅读全文 → 2023-08-08