介绍下TAO里关于内存访问密集型layer的优化?
这里的优化原则就是对于访问密集型计算可以进行一定fusion,用于减少访存量。当然也没有那么简单,比如把相应的kernel结合在一起,如果底层没有Kernel支持,我们会有CUDA代理的支持类,自动产生相当于跟fuse的多样的pattern可以匹配的一个Kernel。
蓝海大脑 京ICP备18017748号-1