人工智能高性能计算从实验室到实际应用有何大不同? 实验室科研的关注点,是为了解决技术难题,创造技术层面的价值,用更先进的技术得到尽可能高的模型准确度。诸如方案规模化部署的可实施性,方案整体成本等工程化的问题并不会排在最高优先级。而在企业的实际应用中,关注点则在于为客户提供什么样的价值——诸如解决人工识别反洗钱成本高、效率低的问题,以及如何给客户创造价值——诸如如何让更多用户购买符合自己条件的基金产品。至于技术的难易,反倒在其次。 蓝海大脑高性能计算液冷工作站事业部为了帮助客户加速AI落地,进而所实施的硬件、软件、生态三方面的战略: 1、硬件层 阅读全文 → 2022-11-01
水冷工作站或液冷服务器,单独换CPU,或升级GPU卡,可以吗? 蓝海大脑www.lanhy.cn 水冷工作站或液冷服务器经过三代的更新迭代,现在已经支持一键式插拔,不必找蓝海大脑厂商服务,可自行更换新升级新的CPU、GPU卡。或者您还可以购买基本的GPU配置和更适量的RAM,并在以后升级。我们提供预组装和预填充的GPU,这些GPU卡是即插即用的。这样,随着深度学习工作负载的扩展,您可以轻松提高蓝海大脑水冷工作站、液冷服务器、机架式服务器的计算能力。 阅读全文 → 2022-11-01
请问这台液冷GPU服务器适合做深度学习吗?大概多少钱买合适? 机器学习方向目前性价比最高的是3090涡轮显卡,显卡单卡24G显存,1万多计算核心,是目前出的最多的设备。处理器用的挺高端,金牌是3系列,看不出来是几颗,估计是1颗,如果是1颗配置,其实不如直接上W系列水冷工作站更合适。内存的话用了两种类型的内存,这个配置不专业,3代处理器8通道,预算比较低就16*16G,预算充足可以上32G或者64G单条的。原则就是通道打开越多,计算效率越快。固态有点儿小了,可以上三星1T 固态,硬盘可以上8T或者16T的。整体来说 阅读全文 → 2022-11-01
为什么国内的AI芯片公司不去支持CUDA,是技术问题还是版权问题? 实现真正意义上的完全兼容是极不可能的。最多是常用API和功能类似,减少用户移植成本。CUDA本身涵盖的功能非常广泛,硬件功能上就几乎体现了NV自家GPGPU的所有可能性,再加上驱动和软件上层封装(各种库,比如cuBLAS,cuFFT,cuDNN之类),以及完备的开发工具套件(编译器、调试器、profiler等等)。这些东西就算是全部开源,让各家移植支持自己的硬件,多数公司恐怕也是有心无力。更别说CUDA很多功能与硬件深度耦合,硬件设计不一致,靠软件封装来保持一致性,工作量真不是一般公司消化得了的。更何况其 阅读全文 → 2022-11-01
为什么在实际高性能计算应用中,FPGA和深度学习GPU有这么大的差距呢? 首先,蓝海大脑液冷服务器事业部针对深度学习应用进行了微架构的优化。目前,业界对于FPGA的AI优化主要有两种手段。一个是将FPGA的可编程逻辑单元作为单独的一部分,并辅以专门用来高性能计算AI应用的加速引擎。这种架构的典型代表,就是赛灵思ACAP里的AI引擎,称之为“轻耦合”的集成方式。 其次也是更重要的原因,就是FPGA能更有效的利用芯片上的这些张量单元,从而使得实际性能和峰值性能没有太大的差距。这个属于系统层面的优化,它基于的是微软脑波项目的架构,也就是在FPGA上实现了一个多核的神经处理单元NPU 阅读全文 → 2022-10-31
对于高性能AI芯片的算力而言,峰值性能和实际性能是一回事吗? 对于英伟达基于12纳米工艺的T4和V100 GPU,它们的INT8峰值性能可以达到130TOPS和62.8TOPS。在实际的AI推理应用中,特别是对实时性要求比较高的应用里(比如batch-32或者更低时),实验表明对于各种矩阵大小和数字表达形式(fp32、fp16、int8),实测结果都无法达到GPU理论上的峰值性能。实际上,这里测到的实际算力可能只有峰值性能的10分之一甚至更低。 从峰值性能来看,FPGA可能比不上GPU 阅读全文 → 2022-10-31