多进程使用单张T4推理时,是否可以用MPS提升T4利用率和latency性能?
如果是多进程的情况下,完全可以用MPS来做。对于MPS,我们之前也做过一些类似的对比,MPS的多进程单流会比单进程多流的方式可能性能上会好一些,比latency会稍微好一点点,但存在一个风险是通过MPS这样的方式后,若其中一个进程挂掉,可能会导致其他进程也挂掉,特别是Volta架构以前。在软件设计上可以考虑到这一点,然后去做针对性的设计。
蓝海大脑 京ICP备18017748号-1