图形处理器(GPU)什么都能做,做得比中央处理器(CPU)好,为何不加上中央处理器指令替代中央处理器? GPU这种东西是非常不适合于处理跳转体系的,你可以通过代码优化。用掩码取代分支等方法来解决一部分分支但你不可能解决所有的分支,这些分支的存在会使得GPU的性能变得非常低下。 拿cuda举例子,这玩意工作的时候就是SIMD的,所有的线程都是同一个指令发射出去操作不同数据,那想象一下假如说线程逻辑里面存在分支,但是这个线程块同一时间只能发射一个指令,要么所有线程都走case1要么都走case2(注意不存在有一些线程走1有一些走2的可能性,硬件上就不允许这种走法),那么假如发射的是case1的控制 阅读全文 → 2023-07-26
训练最基础的transformer模型用多大的gpu就行? 8gb或者12gb就够训练 12层的 encoder-decoder 架构 transformer 模型了。序列长度在512左右。batch size什么的可以通过 gradient checkpoint 或者 accumulate gradient 等操作间接提升。小显存推荐开混合精度训练,或者开bf16缓解一下显存压力(如果卡支持的话)。有能力可以用个 fp16/bf16 算力大点的。 阅读全文 → 2023-07-26
为什么 H100 模型 FLOPS 利用率普遍没有 A100 高? H100 模型的 FLOPS 利用率普遍没有 A100 高可能有几个原因: 1、架构设计:A100 是一款专门为AI工作负载而设计的加速器,它具有更多的 AI 特定硬件和功能,比如 Tensor Cores,可以提高计算效率和深度学习性能。 2、实际的模型训练过程中,除了计算能力之外,还有很多其他因素会影响模型的训练速度,比如数据传输、内存访问、并行计算等。因此,即使两款芯片的 FLOPS 相同,实际的模型训练速度可能仍然存在差异。 3、驱动程序在不同硬件上的稳定性和兼容性可能有所不同, 阅读全文 → 2023-07-25
英伟达GPU的tensor core和cuda core有什么区别? 虽然都是核心,但是并不是说一个负责训练一个负责推理。CUDA是NVIDIA推出的统一计算架构,NVIDIA过去的几乎每款GPU都有CUDA Core,而Tensor Core是最近几年才有的,Tensor Core是专为执行张量或矩阵运算而设计的专用执行单元,而这些运算正是深度学习所采用的核心计算函数。Tensor核心在训练方面能够提供高达12倍的teraflops (TFLOPS) 峰值,而在推理方面则可提供6倍的TFLOPS峰值。每个Tensor核心每个时钟周期可执行64次浮点混合乘加 (FMA) 运 阅读全文 → 2023-07-25
除了 A100/H100 ,还有什么英伟达显卡方案可以突破 48G 显存? 想想175B的模型,pretrain需要 2TB的显存,是怎么训练的?目前有单卡或者双卡2T的显存吗? 目前模型并行化有四种主流方案,数据并行,零冗余数据并行,张量并行和pipeline并行。后三种策略都可以将等效显存扩大。并且还有gradiant checkpoint技术可以使用。 数据并行会将完整的模型和优化器分发到每张卡上,所以多卡显存占用和单卡显存占用没有区别。 零冗余数据并行虽然依旧是数据并行,但是每张卡只保留一部分优化器。单卡优化器的占用会减小到1/n。优化器其实显存占用是比 阅读全文 → 2023-07-25
地质勘测主要做些什么 地质勘测即是通过各种手段、方法对地质进行勘查、探测,确定合适的持力层,根据持力层的地基承载力,确定基础类型,计算基础参数的调查研究活动。 地质学是七大自然科学之一,主要是研究地球及其成因和演化发展。实际应用是非常广泛的:地震的预测、各类矿产的寻找、勘探,灾害性的滑坡,古生物的演化。凡是建筑在地面上的物体,都要事先搞清楚地下的情况。 地质勘探是在对矿产普查中发现有工业意义的矿床,为查明矿产的质和量,以及开采利用的技术条件,提供矿山建设设计所需要的矿产储量和地质资料,对一定地区内的岩石、地层、构造 阅读全文 → 2023-07-21