L1范数和L2范数有什么区别,为什么L1解空间是稀疏的,L2解空间是稠密的

L1是模型各个参数的绝对值之和。 


L2是模型各个参数的平方和的开方值。


L1会趋向于产生少量的特征,而其他的特征都是0。因为最优的参数值很大概率出现在坐标轴上,这样就会导致某一维的权重为0 ,产生稀疏权重矩阵 。


L2会选择更多的特征,这些特征都会接近于0。最优的参数值很小概率出现在坐标轴上,因此每一维的参数都不会是0。当最小化||w||时,就会使每一项趋近于0。


L1的作用是为了矩阵稀疏化。假设的是模型的参数取值满足拉普拉斯分布, L1 正则的本质其实是为模型增加了“**模型参数服从零均值拉普拉斯分布**”这一先验知识。(它在0的概率最大,尾部较正态分布更平坦。)


L2的作用是为了使模型更平滑,得到更好的泛化能力。假设的是参数是满足高斯分布。(它在两端尾部略高,拉普拉斯分布,在0处更平坦。)


L1的权值更新固定减小一个值,有可能会减小到0;


L2的权值更新,每次减小上一次的1/2,权值会越来越小,但不会为0。


蓝海大脑 京ICP备18017748号-1