
UGC内容视频审核场景下,如何利用T4的新特性提升效率?(如果能用具体算法举例就更好了)
从算法的角度来说,主要是通过量化和低精度方面去做软件方面的设计。当然硬件上就是通过T4本身提供的能力来做计算效率的提升。就是T4刚才提到了这样一些新特性,其实这个新特性主要都是围绕着TENSOR库来做的,当然也针对性的提升了IO的带宽,还有显存的大小。并且T4在设计上,其实非常适合短视频的一个点是说它的解码能力是P4的两倍,可以支持更多的多路并发。
阅读全文 → 2022-12-21
从算法的角度来说,主要是通过量化和低精度方面去做软件方面的设计。当然硬件上就是通过T4本身提供的能力来做计算效率的提升。就是T4刚才提到了这样一些新特性,其实这个新特性主要都是围绕着TENSOR库来做的,当然也针对性的提升了IO的带宽,还有显存的大小。并且T4在设计上,其实非常适合短视频的一个点是说它的解码能力是P4的两倍,可以支持更多的多路并发。
阅读全文 → 2022-12-21
对于NLP问题,我举一个现在非常火的例子,就是关于BERT的量化。对于这个模型,在现实应用中会有很多的修改,比如说我的层数会比较少,或者检查头数上,以及对应的参数都会有一定的修改。这种情况下,它的量化大同小异,相同的点是在于你在量化的时需要针对性的去选择哪些层可以量化,差异在于不同的模型结构下,可以优化的层又不太一样,这一块的量化,很多头部公司基本上已经都做了,他们的网络在T4上的INT8计算推理情况下,已经得到了很大的提升。
阅读全文 → 2022-12-21
如果是多进程的情况下,完全可以用MPS来做。对于MPS,我们之前也做过一些类似的对比,MPS的多进程单流会比单进程多流的方式可能性能上会好一些,比latency会稍微好一点点,但存在一个风险是通过MPS这样的方式后,若其中一个进程挂掉,可能会导致其他进程也挂掉,特别是Volta架构以前。在软件设计上可以考虑到这一点,然后去做针对性的设计。
阅读全文 → 2022-12-19
从软件角度来看,不太确定用的是哪一个框架,不同的框架实现了同一个算法,可能在载率上是不太一样的,可以借助刚才提到的Nsightsystems去分析瓶颈到底出现在哪。如果真的是CPU上的计算太多了,GPU上的计算量本来就少,这时如果负载低其实是预期之中的,可以通过一些其他的方法去改进它。
阅读全文 → 2022-12-19
如果是模型的效果上,这种情况有可能发生,相当于你的模型可能还没有完全到达训练完成的阶段。如果是计算速度的提升这块,到底是什么场景会导致这一个点,我觉得需要详细的分析一下。
阅读全文 → 2022-12-19
我们利用 NVIDIA DGX-1 重新运行了之前的多卡数据并行程序。同样的深度生成模型在 DGX-1 上利用多 GPU 能达到几乎接近线性的加速比,这比之前的装载多块 TITANX GPU 的超微服务器有了明显的效率提升。
NVIDIA DGX 架构中拥有八块 Tesla P100 GPU,以及优化过后的NVLINK 通信。此过程是通过开源软件 Tensorflow 实现。基于DGX-1 的多卡并行深度卷积生成模型,相比于原有服务器上单机多卡的并行执行效率有了明显提升,训练时间从 0.5-1 周计
阅读全文 → 2022-12-19
蓝海大脑 京ICP备18017748号-1