跑6B的大模型至少要怎样的GPU配置? 在运行大型模型时,不仅需要考虑计算能力,还需要关注所用内存和 GPU 的适配情况。这不仅影响 GPU 推理大型模型的能力,还决定了在训练集群中总可用的 GPU 内存,从而影响能够训练的模型规模。 大模型推理的内存计算只需考虑模型权重即可。 大模型训练的内存计算往往会考虑包括模型权重、反向传播的梯度、优化器所用的内存、正向传播的激活状态内存。 接下来以ChatGLM-6B为例,它的参数设置为隐藏层神经元数量(hidden_size)为 4096,层数(num_layers)为 28,tok 阅读全文 → 2024-04-10
算力不足还是数据荒?中国AI面临的核心挑战是什么? 哈喽,小伙伴们。今天我们将探索人工智能奥秘,主要重点放在中国人工智能在数据领域的发展及其优劣势上。在谈及百度的“文心”大模型时,李彦宏称其在中文创作,尤其是诗歌撰写等方面展示了超越GPT-4.0的能力。他举了一个例子说,GPT-4.0在写《沁园春·长沙》时起句字数都数不过来,而“文心”则游刃有余。的确如此,百度模型不仅在中文上有所优势,未来将更有潜力在更广泛的领域取得更大的突破。 阅读全文 → 2024-04-10
神经网络中常用的激活函数有哪些? 神经网络中常用的激活函数包括sigmoid、ReLU (Rectified Linear Unit)和tanh(双曲正切)。Sigmoid将任何输入值映射到0到1之间的值,通常用于二进制分类问题的输出层。ReLU将任何小于0的输入值映射为0,将任何大于等于0的输入值映射为输入值本身,这有助于缓解梯度消失问题。Tanh将任何输入值映射到-1到1之间的值,通常用于网络的隐藏层。 阅读全文 → 2024-03-17
权重初始化如何影响深度学习模型的性能? 权重初始化是训练深度学习模型的重要步骤,因为它决定了优化过程的起点。如果用小的随机值初始化权重,模型将很难从数据中学习,因为梯度太小了。另一方面,如果权重初始化随机值较大,则模型收敛速度较快,但可能无法找到损失函数的全局最小值。选择合适的权值初始化方法,如He初始化或Glorot初始化,有助于提高模型的性能。 阅读全文 → 2024-03-17
什么是深度学习,它与传统机器学习有什么不同? 深度学习是机器学习的一个子集,涉及训练人工神经网络来执行通常由人类完成的任务,如图像和语音识别、自然语言处理和决策。它与传统机器学习的不同之处在于,它使用多层人工神经元,即深度神经网络,从大型复杂数据集中提取和处理信息。 阅读全文 → 2024-03-17
集群是什么意思? 炼丹超大型LLM,需要千颗以上的GPU协同工作,这种量级针对LLM的集群软硬件生态,目前只有英伟达独此一家。即使说到几颗GPU的小集合,英伟达都是遥遥领先,这就是我们看到的Hopper架构,GPU之间连接的NVLink和NVSwitch是英伟达私有技术,AMD用的PCIe并不能与之抗衡。H200首家采用的HBM3e,有恐怖的4.8TB/s带宽来有效突破内存墙。再过两天英伟达开GTC,不知道还会有什么东西拿出来吓人。 阅读全文 → 2024-03-17