国内有哪些厂商在做深度学习方面的存储和服务器硬件? 深度学习服务器/工作站,不能单独考虑硬件配置高低,以及预算多少,要根据使用者的类型,配置合理的硬件,硬件配置至少分为两个类型: 一、深度学习开发工作站/服务器 基本要求: 1、处理器:8核或以上 2、内存:64G内存或以上 3、GPU:1-4块GTX1080Ti,GTX Titan XP/V,Quadro GP100 阅读全文 → 2022-11-07
公司用来做深度学习的服务器里,能装不同型号的显卡吗? 不建议不同架构不同类型的显卡安装在统一平台协同工作,做深度学习训练时即便能正常使用,也可能会导致性能较高的显卡存在性能损失的情况。这与软件应用相关,原则上不太建议这样使用。 阅读全文 → 2022-11-07
现在高性能计算大气模型有没有提升的空间? 从两方面来说,在P100、V100这些平台上工作,能保证新平台性能翻了多少倍,实际的性能也是按照比例去提升,所以一方面平台的提升,让大气模型性能得到提升。另一方面反过来,大气模型也有提升的空间,但是欧拉比较准确的,欧拉在往上还有A次方程,准确性越高,复杂度越高,想算的准确率越高,复杂度也会越高,会把性能再拉下来,想要算的更准就要往下拽性能,想要用更好的GPU去提性能,是一个膨胀的过程。目前对咱们国家来说,模式发展是一个很好的契机,我这五六年一直在 阅读全文 → 2022-11-04
深度学习高性能计算液冷GPU工作站加速迅速降低是否意味着kernel的调度开销其实也挺大? 从描述上来说,看起来用到的kernel数目并不多,到现在为止,只在一些网络甚至神经网络相关的一些博客里面看到有大量的小的up操作,当kernel数目调度非常大时,kernel调度可能会变成一个问题,但是若针对一个kernel或者说几个kernel,kernel调度的开销基本上可以忽略,它并不是解决问题规模特别大,调度的开销就越大,所以我认为更有可能是当规模变大之后,特别是cash的行为可能发生很大的变化,这可能是其中一个原因。但是总体 阅读全文 → 2022-11-04
做深度学习的服务器通常只有高性能GPU,如果对CPU也有苛刻需求怎么办? 对深度学习训练的GPU要求和算法需求有关了。如果你编程能力较强,可以考虑直接用pytorch重写这些sklearn的算法,sklearn是基于numpy的,而pytorch提供的矩阵操作与numpy非常接近,所以移植难度可能并不是很高。这样有个巨大的好处是,tensor可以保持在高性能计算GPU不用读出来,效率非常高。一般网络之外比较简单的计算都是这么做的,如果搞深度学习训练的话你应该见过很多了。算法比较复杂的话,可以直接找目标算法是不是已经有cuda/o 阅读全文 → 2022-11-04
液冷服务器中哪些系统是冗余的? 液冷服务器在近几年低碳节能绿色等政策的加持之下讯猛发展。经过行业验证,并不断的更新迭代,液冷服务器中的液冷泵是液体冷却回路的重要部件,每台水冷工作站、液冷服务器都配备了两个GPU服务器液冷泵,以确保在其中一个泵发生故障时冷却液的恒定流量。 液冷服务器由 3+1 80Plus 金牌级服务器级电源装置进一步支持。液冷服务器的电源是恒定功率、平衡负载共享、热插拔单元。液冷服务器可能会遭受其中一个电源的完全故障。 阅读全文 → 2022-11-04