C/C++中内存泄漏以及解决方法？

通常的深度学习模型参数是FP32浮点型的，而模型量化主要是使用FP16，INT8以及INT4等低精度类型来保存模型参数，从而有效的降低模型计算量和内存占用，并将精度损失限制在一个可接受的范围内。

模型量化主要分在线量化和离线量化。在线量化在模型训练阶段采用量化方法进行量化。离线量化主要在模型离线工具（模型转换阶段）中采用量化方法进行量化。

工业界中主要使用离线量化作为通用模型量化的解决方案。