NVIDIA在深度学习目标检测模型量化方面,怎样做到速度和精度之间的平衡。NVIDIA 在目标检测采用哪种算法? 速度上面可以用FP16或INT8来达到目标的速度;在精度上面,如果用INT8,目前有很多方法,最基本的有TensorRT INT8基本的量化算法,像entropy、linux这些calibration的算法,如果校准的算法不满足精度的要求,有些debug的手段,去检查当前网络中哪些层影响精度,后面再去优化它。甚至有些可以在训练阶段去调整INT8的精度,把训练阶段设生成的INT8精度校准表导入到TensorRT里,让TensorRT在做influence的精度跟训练时 阅读全文 → 2022-10-19
如果公司有大量的原始音频数据,如何筛选数据,以及起步去建立自己的模型?有哪些要素是必须要有的? 一般把这个问题叫冷启动问题,其实对于冷启动还是有不少的方案,这里主要描述一个比较朴素的流程。因为是原始数据,要先进行标注,那首先要关心的是要筛选什么样的数据送标,这也取决于你这个描述的大量是什么样的量级,以及你想用什么样的方案来去做标注。是全人工还是第三方服务,结果为主,人工为辅,另外还要考虑您接受的成本和标注周期是多少,若想简单些,可能就是全部送去标注。如果不能接受,就需要做筛选。对于筛选,简单来讲会计算它的信噪比,然后提取一些音频的特征,来看整体数据的分布 阅读全文 → 2022-10-18
如果某个模型的请求执行完毕了,高性能GPU服务器显存会释放掉吗? TensorRT Inference Server可以从模型仓库里面去load模型,在runtime的时候。如果释放GPU的显存,需要卸载模型,可以通过修改模型仓库来实现,关于如何修改模型仓库,您可以参考TensorRT Inference Server的用户手册,就不用去重新启动TensorRT Inference Server,另外也可以使用gRPC或者HTTP的API来动态的加载或卸载模型,具体也可以去参考模型管理的文档。 阅读全文 → 2022-10-18
如何保证深度学习大规模语音理解和合成的准确性和响应速度? 首先分解下,先从准确性上去描述,然后再说响应速度的问题。准确性上其实识别跟合成稍微不同,识别可以分为声学模型的方案,还有语言模型的方案,声学模型主要是通过加数据做数据增强,肯定是加越多场景的数据会越好,可以让整个声学预测的准确率得到很好的提升,然后让模型深度加深,让整个模型具有更好的效果;对于语言模型,除了加数据以外,还能做一些其他方案,像一些比较关键的词的lm boosting,或者如果你专注于某些领域类的数据,也可以做一些领域domain比较小的lm b 阅读全文 → 2022-10-18
目前GPU虚拟化技术在腾讯云、阿里云、百度云、AWS部署的情况如何?有哪些典型案例可以分享一下? 目前这些大的CSP,或多或少都在利用GPU虚拟化技术;典型的公有云提供商就是阿里云,阿里云在三月的时候提供基于Tesla P4 vGPU,不仅仅可以向用户提供传统GPU的实例,同样可以提供虚拟化切割的GPU实例,vGPU主要是面向几个场景,第一个是图形场景,第二个是小算力场景,切割以后对算力要求不高,还有一些对云端有要求的,比如游戏或是渲染等场景都可以用vGPU来实现。 阅读全文 → 2022-10-18
随着AMD处理器的快速发展,APU的性能与英特尔的CPU+GPU不相上下,那么对于OpenCL与CUDA,用哪个学习并行计算更好? 现在主流GPU主要是AMD和英伟达,英伟达因为已经形成了CUDA的生态环境,比如丰富的数学库,各类成熟的软件包,很多的商业软件也支持CUDA编程。OpenCL是一种通用的加速卡,不光是英伟达GPU支持,AMD的也支持,但是AMD支持的动态环境不是特别好,要是学习并行计算,还是建议从GPU,用CUDA来学比较好,如果上手的话,一开始可以从OpenACC切入,随着学习的深入,可以来学习CUDA。对于AMD同时也提供了一个工具,叫HIP的工具包,这个工具包可以把你学到 阅读全文 → 2022-10-18