常用的高性能优化器有哪些，ADAM和SGD有什么区别？

常见的优化器：SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta，RMSprop、Adam、AdamW优化器等。

SGD是随机梯度下降法，是最基本的优化器。

Adam是一种自适应学习率的方法。以SGD作为最初的算法，Momentum在其基础上加入了一阶动量（历史梯度的累计）， AdaGrad和RMSProp在其基础上加入了二阶动量（历史梯度的平方累计），Adam就是结合了SGD的一阶动量和RMSProp的二阶动量算法。