为什么layernorm在NLP下有效，batchnorm则不是？_蓝海大脑

为什么layernorm在NLP下有效，batchnorm则不是？

layernorm和batchnorm的区别：LN中同层神经元输入拥有相同的均值和方差，不同的输入样本有不同的均值和方差；

BN中则针对不同神经元输入计算均值和方差，同一个batch中的输入拥有相同的均值和方差。

LN不依赖于batch的大小和输入sequence的深度，因此可以用于batchsize为1和RNN中对变长的输入sequence的normalize操作。

由于NLP中的文本输入一般为变长，所以使用layernorm更好。

网络研讨会

了解更多

注册以接收蓝海大脑活动/网络研讨会邀请

创新
卓越
共赢

: 扫一扫
关注官方微信

: 扫一扫
关注官方知乎

: 扫一扫
关注官方百家号

地址：北京市海淀区东北旺南路29号蓝海中心

联系电话：010－82770520

联系邮箱：marketing@lanhy.cn

蓝海大脑京ICP备18017748号-1