Bert里面为什么用layer normalization,而不用batch normalization,分别讲一下这两个啥意思。

Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。

区别:LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。所以,LN不依赖于batch的大小和输入sequence的长度,因此可以用于batchsize为1和RNN中sequence的normalize操作。

蓝海大脑为满足深度学习BN平台用户的需要,经过多年的努力,成功研发出集支持一键式部署;支持多种CPU、GPU多种部署模式;无缝对接对象存储海量训练数据等优点为一体的深度学习平台。

蓝海大脑 京ICP备18017748号-1