NVIDIA GPU环境，对深度学习的计算框架，做了哪些优化，比如具体CUDA开发环境是否有对DL有优化？

现在对于每一个深度学习框架软件，nvidia都发布了一个对应的docker image镜像，会支持最新的GPU功能和最新的CUDA版本，这些镜像里面的深度学习框架软件会自动调用cuDNN，cuBLAS，NCCL等nvidia发布的深度学习相关的库，会较好的支持tensor core，fp16等新特性。

另外，nvidia发布了一个nvidia版本的caffe，即nvcaffe，会对开源的caffe做一些优化，比如增加ImageDataLayer并行化，提升训练精度，支持RNN，Deconvolution，SSD层等等，其他的框架也有一些优化，可以参考nvidia发布的相关框架的release notes。