不同深度模型的混合精度策略如何确定?有没有高性能计算自动化方法? 主要的问题是策略如何确定,在图改写的维度主要基于规则和底层硬件的特性来制定一个合理的规则,对于loss-scale策略是基于auto loss-scaling的自动化控制策略。可能会有更多维度的精度,比如INT8,INT4,这个控制我们团队有一些已经发布的,也有正在研究的一些结果,会去控制混合精度策略,类似于哪个layer选择什么精度才是合理的,会有一些auto的概念。 阅读全文 → 2022-10-08
孔规则和不规则对算法的影响是什么? 蓝海大脑航空大数据一体机研究人员表示:因为传统的神经网络是需要完整的数据结构进行输入的,所以你要在缺散区里面用初始的替代值进行填充。同时因为填充的替代值和非孔区域的值是被同等的对待了,整个神经网络要训练成为能够识别出哪些是填充的值,哪些不是填充的值。当孔规则在特定位置的情况下,神经网络会更容易发现哪些是替代的填充值需要去修改的,哪些是非孔区的原始值可以保留的。 阅读全文 → 2022-10-08
在深度学习大规模分布式训练过程中,如何做到计算和通信重叠? 在高性能GPU里面的话,因为通信的过程中和训练过程中其实底层都是CUDA。对于CUDA,它可以通过多流的方式做到有计算是一个或一些kernel,然后放在一个Stream里,通信可以放到另外一个Stream里。Stream之间可以是它原生的,可以去根据GPU资源做到一个通信和计算的隐藏,然后可以做一个比较好的性能的增加,这个是通过Stream去做的。 阅读全文 → 2022-10-08
当前深度学习移动端的轻量化backbone,推荐使用哪些高性能计算模型? 通过实践发现轻量化模型还是一些比较传统的网络结构最有效,比如说MobileNet、SqueezeNet等都可以达到很好的效果,还有像MobileNetv2和MobileNetv3。然后针对于一些不同的task,比如针对于分割任务,LiteSeg是比较轻量级的模型,它的表现效果也是很好。对于有工程经验的同学,可以采用SDK。 阅读全文 → 2022-10-08
异构计算中引擎并行计算系统的异构并行有多少种呢? GPU、FPGA、DSA、ASIC等引擎同构并行的系统。处理引擎/芯片是非图灵完备的,是作为CPU的加速器。所以,其他处理引擎的并行计算系统即为CPU+XPU的异构并行,大体分为三类: 1. CPU+GPU。CPU+GPU是目前最流行的异构计算系统,在HPC高性能计算、图形图像处理以及AI训练/推理等场景得到广泛应用,蓝海大脑水冷工作站、液冷服务器就是基于CPU+GPU的液冷解决方案。 2. CPU+FPGA。目前数据中心流行的FaaS服务,利用FPGA的局部可编程 阅读全文 → 2022-10-08
什么是时空大数据? 时空大数据spatio-temporal big data时空大数据定义:基于统一时空基准(时间参照系和空间参照系)、活动(运动变化)在时间和空间中与位置直接(定位)或间接(空间分布)相关联的大规模海量 阅读全文 → 2022-10-06