随着人工智能,深度学习的爆发,基于神经网络的AI处理器性能也不断提升,未来英伟达的GPU+Intel的CPU在面对基于ARM架构的处理器方面会有什么挑战?虽然ARM的低功耗处理器在某些方面不如x86架 英伟达的生态做的是很好的,我个人认为虽然有挑战,但是短期内的地位是不可撼动的,人工智能计算更多还是以NVIDIA的GPU为主。ARM的架构确实很好,编程没有什么特别的,我觉得用GCC就可以了,日本东京有个大型超级计算机,他们就是ARM来做的,没有任何加速卡,所以直接GCC就可以,国内的像国防科大ARM架构的DSP编程,就同时需要学习在DSP上的并行加速技术,从整体生态来看,还是CUDA生态好。 阅读全文 → 2022-10-17
目前国产的GPU的现状,未来三年的发展趋势;当前的keyplayer有哪些;与国外的Xilinx NVIDIA差距;全球HPC市场的Market Share。 现在GPU主要是英伟达和AMD,国产其他的我还不太了解。但是整个来讲当前超算还是以加速卡为主,美国采用的加速卡就是英伟达的,日本也有采用ARM架构来进行加速的,就中国来讲可能是采用DSP这种加速卡,也有采用神威这类重核处理器的。从今年HPC全球分布最新的市场份额来看,全球top500中,排名第一的应该是联想,其次是惠普,接着是浪潮,曙光,Cray,蓝海大脑等等。 阅读全文 → 2022-10-17
深度学习应用的未来趋势会是边缘计算,还是大规模服务器集群,AI芯片未来会取代GPU服务器吗? 边缘计算的服务器是很重要的,这要根据边缘端的视频路数、吞吐量来决定选择什么样的服务器,有的情况下可能两卡的足够了,有的情况下可能需要四卡、八卡,所以是根据边缘端具体的并发量来决定的。我觉得未来AI芯片不会取代GPU服务器。 阅读全文 → 2022-10-17
是否需要提前确认Overflow是哪个原因引起的,或者已经确认FP32的模型没有Overflow问题? 如果有Overflow会skip这个batch,不更新这个梯度。在开发的过程中也考虑到类似问题,但是在实验过程中,可能大部分情况下在FP32进行训练时,一些特定的step会有Overflow的产生,但是这些step一般是因为batch下的数据比较特殊,同时在wait的状态下产生了Overflow,基于这样的混合精度训练的Overflow,这些batch会被skip掉,整体而言model没有进行Overflow就没有被挂掉,他本质上也帮助了model的训练。如果有些mod 阅读全文 → 2022-10-17
遥感测绘应用程序,加速的瓶颈在哪,比如memory bottleneck Computing performance等。 上述的瓶颈大部分都有,对于大气模式,它是一个代码量很大的工程,有时候一个程序中就有上千行代码,在程序进行到一开始时,很有可能像Stencil一样是一个慢慢的Memory bottleneck,这会使得在取数据时不便于去访存等。当访存完之后,由于有一些sin、cos(正弦和余弦)等数学函数的存在,因此又变成了计算bottleneck。这时对访存的优化解决方案是通过异构把仿存的时间包括通讯时间隐藏起来,而对于sin、cos(正弦和余弦)等数学函数是通过GPU的高并发度来完 阅读全文 → 2022-10-17
目前使用深度学习GPU平台加速比传统其他解决方案在能耗或者性能方面有多少倍的提升? 这跟应用和其特点有关。举个最实际的应用例子,在真正用到超级计算机或者大规模情况下,在性能上GPU比CPU会有80~100倍的性能加速;在能耗上,可以分为大规模的能耗比和小规模的能耗比,对于大规模的能耗比来说,我们并没有作比较,因为是无法比较大规模下超级计算机的能耗;而在小规模的情况下是可以进行比较的,通过将CPU、GPU、FPGA以及Intel的Ryzen5相比,将功率计插到总电源上,观察在不同的平台,它们之间的功率情况,总体来说,由于FPGA的频率比较低以及在传统上的一些 阅读全文 → 2022-10-17