常用的高性能优化器有哪些,ADAM和SGD有什么区别?

常见的优化器:SGD、BGD、MBGD、Momentum、NAG、Adagrad、Adadelta,RMSprop、Adam、AdamW优化器等。


SGD是随机梯度下降法,是最基本的优化器。


Adam是一种自适应学习率的方法。以SGD作为最初的算法,Momentum在其基础上加入了一阶动量(历史梯度的累计), AdaGrad和RMSProp在其基础上加入了二阶动量(历史梯度的平方累计),Adam就是结合了SGD的一阶动量和RMSProp的二阶动量算法。


蓝海大脑 京ICP备18017748号-1