Layer Normalization 和 Batch Normalization的区别,padding对这两者有影响吗,对哪一维有影响。
Batch Normalization 是对这批样本的同一维度特征做归一化, Layer Normalization 是对这单个样本的所有维度特征做归一化。
区别:LN中同层神经元输入拥有相同的均值和方差,不同的输入样本有不同的均值和方差;BN中则针对不同神经元输入计算均值和方差,同一个batch中的输入拥有相同的均值和方差。所以,LN不依赖于batch的大小和输入sequence的长度,因此可以用于batchsize为1和RNN中sequence的normalize操作。
padding会对Batch Normalization的seq_len这个维度有影响,计算的时候会把padding也算进去。
蓝海大脑 京ICP备18017748号-1