梯度爆炸和梯度消失产生的原因及解决方法?

一般在深层神经网络中,我们需要预防梯度爆炸和梯度消失的情况。

梯度消失(gradient vanishing problem)和梯度爆炸(gradient exploding problem)一般随着网络层数的增加会变得越来越明显。

例如下面所示的含有三个隐藏层的神经网络,梯度消失问题发生时,接近输出层的hiden layer3的权重更新比较正常,但是前面的hidden layer1的权重更新会变得很慢,导致前面的权重几乎不变,仍然接近初始化的权重,这相当于hidden layer1没有学到任何东西,此时深层网络只有后面的几层网络在学习,而且网络在实际上也等价变成了浅层网络。


我们来看看看反向传播的过程:

可以知道,的最大值是,而我们初始化的权重通常都小于1,因此,而且链式求导层数非常多,不断相乘的话,最后的结果越来越小,趋向于0,就会出现梯度消失的情况。

梯度爆炸和梯度消失问题都是因为网络太深,网络权重更新不稳定造成的,本质上是梯度方向传播的连乘效应。

梯度爆炸和梯度消失的解决方法


使用预训练加微调策略。

进行梯度截断。

使用ReLU、LeakyReLU等激活函数。

引入BN层。

使用残差结构。

使用LSTM思想。


蓝海大脑 京ICP备18017748号-1