缓解梯度消失和梯度爆炸的方法有哪些?

以下几种方法供参考:

换用Relu、LeakyRelu、Elu等激活函数

ReLu:让激活函数的导数为1

LeakyReLu:包含了ReLu的几乎所有有点,同时解决了ReLu中0区间带来的影响

ELU:和LeakyReLu一样,都是为了解决0区间问题,相对于来,elu计算更耗时一些

BatchNormalization及LayerNormalization

BN及LN本质上是解决传播过程中的梯度问题。

用LSTM或GRU来代替RNN。

加入ResNet网络。

使用梯度裁剪(Gradient Clipping)。



蓝海大脑 京ICP备18017748号-1