神经网络中会用到批量梯度下降(BGD)吗?为什么用随机梯度下降(SGD)?

1)一般不用BGD


2)a. BGD每次需要用到全量数据,计算量太大


b. 引入随机因素,即便陷入局部极小,梯度也可能不为0,这样就有机会跳出局部极小继续搜索(可以作为跳出局部极小的一种方式,但也可能跳出全局最小。还有解决局部极小的方式:多组参数初始化、使用模拟退火技术)

v

蓝海大脑 京ICP备18017748号-1