缓解梯度消失和梯度爆炸的方法有哪些?
以下几种方法供参考:
换用Relu、LeakyRelu、Elu等激活函数
ReLu:让激活函数的导数为1
LeakyReLu:包含了ReLu的几乎所有有点,同时解决了ReLu中0区间带来的影响
ELU:和LeakyReLu一样,都是为了解决0区间问题,相对于来,elu计算更耗时一些
BatchNormalization及LayerNormalization
BN及LN本质上是解决传播过程中的梯度问题。
用LSTM或GRU来代替RNN。
加入ResNet网络。
使用梯度裁剪(Gradient Clipping)。
蓝海大脑 京ICP备18017748号-1