UGC内容视频审核场景下,如何利用T4的新特性提升效率?(如果能用具体算法举例就更好了) 从算法的角度来说,主要是通过量化和低精度方面去做软件方面的设计。当然硬件上就是通过T4本身提供的能力来做计算效率的提升。就是T4刚才提到了这样一些新特性,其实这个新特性主要都是围绕着TENSOR库来做的,当然也针对性的提升了IO的带宽,还有显存的大小。并且T4在设计上,其实非常适合短视频的一个点是说它的解码能力是P4的两倍,可以支持更多的多路并发。 阅读全文 → 2022-12-21
量化在nlp问题上应用怎样? 对于NLP问题,我举一个现在非常火的例子,就是关于BERT的量化。对于这个模型,在现实应用中会有很多的修改,比如说我的层数会比较少,或者检查头数上,以及对应的参数都会有一定的修改。这种情况下,它的量化大同小异,相同的点是在于你在量化的时需要针对性的去选择哪些层可以量化,差异在于不同的模型结构下,可以优化的层又不太一样,这一块的量化,很多头部公司基本上已经都做了,他们的网络在T4上的INT8计算推理情况下,已经得到了很大的提升。 阅读全文 → 2022-12-21
多进程使用单张T4推理时,是否可以用MPS提升T4利用率和latency性能? 如果是多进程的情况下,完全可以用MPS来做。对于MPS,我们之前也做过一些类似的对比,MPS的多进程单流会比单进程多流的方式可能性能上会好一些,比latency会稍微好一点点,但存在一个风险是通过MPS这样的方式后,若其中一个进程挂掉,可能会导致其他进程也挂掉,特别是Volta架构以前。在软件设计上可以考虑到这一点,然后去做针对性的设计。 阅读全文 → 2022-12-19
T4 4卡负载率低的问题如何解决?硬件还是软件? 从软件角度来看,不太确定用的是哪一个框架,不同的框架实现了同一个算法,可能在载率上是不太一样的,可以借助刚才提到的Nsightsystems去分析瓶颈到底出现在哪。如果真的是CPU上的计算太多了,GPU上的计算量本来就少,这时如果负载低其实是预期之中的,可以通过一些其他的方法去改进它。 阅读全文 → 2022-12-19
训练模型的时候,发现多次训练,模型的推理能力会有提升,这是偶然事件吗? 如果是模型的效果上,这种情况有可能发生,相当于你的模型可能还没有完全到达训练完成的阶段。如果是计算速度的提升这块,到底是什么场景会导致这一个点,我觉得需要详细的分析一下。 阅读全文 → 2022-12-19
NVIDIA DGX-1 如何助力大规模贝叶斯深度学习? 我们利用 NVIDIA DGX-1 重新运行了之前的多卡数据并行程序。同样的深度生成模型在 DGX-1 上利用多 GPU 能达到几乎接近线性的加速比,这比之前的装载多块 TITANX GPU 的超微服务器有了明显的效率提升。 NVIDIA DGX 架构中拥有八块 Tesla P100 GPU,以及优化过后的NVLINK 通信。此过程是通过开源软件 Tensorflow 实现。基于DGX-1 的多卡并行深度卷积生成模型,相比于原有服务器上单机多卡的并行执行效率有了明显提升,训练时间从 0.5-1 周计 阅读全文 → 2022-12-19