CUDA的stream使得高性能GPU计算具有粗粒度并行能力,那么,一般单卡使用多少stream比较合适?即:深度学习GPU卡的物理任务管理队列数量是多少?

单卡用多少stream没有一个特别的说法,我们写一个多stream程序之后,在满足你的计算逻辑的前提下,你可以尝试去试下到底用多少个stream比较合适。关于GPU卡的物理任务管理队列数量是多少,这个问题我还真没有仔细去了解过。

蓝海大脑 京ICP备18017748号-1