跑6B的大模型至少要怎样的GPU配置？

在运行大型模型时，不仅需要考虑计算能力，还需要关注所用内存和 GPU 的适配情况。这不仅影响 GPU 推理大型模型的能力，还决定了在训练集群中总可用的 GPU 内存，从而影响能够训练的模型规模。

大模型推理的内存计算只需考虑模型权重即可。

大模型训练的内存计算往往会考虑包括模型权重、反向传播的梯度、优化器所用的内存、正向传播的激活状态内存。

接下来以ChatGLM-6B为例，它的参数设置为隐藏层神经元数量（hidden_size）为 4096，层数（num_layers）为 28，tok

阅读全文 → 2024-04-10

算力不足还是数据荒？中国AI面临的核心挑战是什么？

哈喽，小伙伴们。今天我们将探索人工智能奥秘，主要重点放在中国人工智能在数据领域的发展及其优劣势上。在谈及百度的“文心”大模型时，李彦宏称其在中文创作，尤其是诗歌撰写等方面展示了超越GPT-4.0的能力。他举了一个例子说，GPT-4.0在写《沁园春·长沙》时起句字数都数不过来，而“文心”则游刃有余。的确如此，百度模型不仅在中文上有所优势，未来将更有潜力在更广泛的领域取得更大的突破。

阅读全文 → 2024-04-10

神经网络中常用的激活函数有哪些？

神经网络中常用的激活函数包括sigmoid、ReLU (Rectified Linear Unit)和tanh(双曲正切)。Sigmoid将任何输入值映射到0到1之间的值，通常用于二进制分类问题的输出层。ReLU将任何小于0的输入值映射为0，将任何大于等于0的输入值映射为输入值本身，这有助于缓解梯度消失问题。Tanh将任何输入值映射到-1到1之间的值，通常用于网络的隐藏层。

阅读全文 → 2024-03-17

权重初始化如何影响深度学习模型的性能？

权重初始化是训练深度学习模型的重要步骤，因为它决定了优化过程的起点。如果用小的随机值初始化权重，模型将很难从数据中学习，因为梯度太小了。另一方面，如果权重初始化随机值较大，则模型收敛速度较快，但可能无法找到损失函数的全局最小值。选择合适的权值初始化方法，如He初始化或Glorot初始化，有助于提高模型的性能。

阅读全文 → 2024-03-17

什么是深度学习，它与传统机器学习有什么不同？

深度学习是机器学习的一个子集，涉及训练人工神经网络来执行通常由人类完成的任务，如图像和语音识别、自然语言处理和决策。它与传统机器学习的不同之处在于，它使用多层人工神经元，即深度神经网络，从大型复杂数据集中提取和处理信息。

阅读全文 → 2024-03-17

集群是什么意思？

炼丹超大型LLM，需要千颗以上的GPU协同工作，这种量级针对LLM的集群软硬件生态，目前只有英伟达独此一家。即使说到几颗GPU的小集合，英伟达都是遥遥领先，这就是我们看到的Hopper架构，GPU之间连接的NVLink和NVSwitch是英伟达私有技术，AMD用的PCIe并不能与之抗衡。H200首家采用的HBM3e，有恐怖的4.8TB/s带宽来有效突破内存墙。再过两天英伟达开GTC，不知道还会有什么东西拿出来吓人。

阅读全文 → 2024-03-17

1 2 3 4 5 6 7 8 9 10 下一页尾页