sigmoid和relu的优缺点

Relu优点：（1）relu函数在大于0的部分梯度为常数，所以不会产生梯度弥散现象.。而对于sigmod函数，在正负饱和区的梯度都接近于0，可能会导致梯度消失现象。（2）Relu函数的导数计算更快，所以使用梯度下降时比Sigmod收敛起来要快很多。

Relu缺点：Relu死亡问题。当 x 是小于 0 的时候，那么从此所以流过这个神经元的梯度将都变成 0；这个时候这个 ReLU 单元在训练中将死亡（也就是参数无法更新），这也导致了数据多样化的丢失（因为数据一旦使得梯度为 0，也就说明这些数据已不起作用）。

Sigmod优点：具有很好的解释性，将线性函数的组合输出为0，1之间的概率。

Sigmodu缺点：（1）激活函数计算量大，反向传播求梯度时，求导涉及除法。（2）反向传播时，在饱和区两边导数容易为0，即容易出现梯度消失的情况，从而无法完成深层网络的训练。