如果某个模型的请求执行完毕了，GPU显存会释放掉吗？

蓝海大脑液冷GPU服务器研究人员表示：

TensorRT Inference Server可以从模型仓库里面去load模型，在runtime的时候。如果释放GPU的显存，需要卸载模型，可以通过修改模型仓库来实现，关于如何修改模型仓库，您可以参考TensorRT Inference Server的用户手册，就不用去重新启动TensorRT Inference Server，另外也可以使用gRPC或者HTTP的API来动态的加载或卸载模型，具体也可以去参考模型管理的文档。