为什么layernorm在NLP下有效,batchnorm则不是?
layernorm和batchnorm的区别:LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;
BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。
LN不依赖于batch的大小和输入sequence的深度,因此可以用于batchsize为1和RNN中对变长的输入sequence的normalize操作。
由于NLP中的文本输入一般为变长,所以使用layernorm更好。
蓝海大脑 京ICP备18017748号-1