对于相同的损失函数和优化器,L1 或 L2 正则化是否给出最稀疏的权重?

问题描述 投票:0回答:2

如果我考虑一个数据集,对于相同的损失函数和相同的优化器,哪种正则化技术(L1 正则化或 L2 正则化)会输出最高的稀疏权重?

machine-learning regression lasso-regression regularized
2个回答
0
投票

根据定义,L1 正则化(套索)强制某些权重为零,从而导致解决方案更稀疏;根据维基百科关于正则化的条目:

可以证明L1范数会导致稀疏性

另请参阅走向数据科学的L1 和 L2 正则化方法帖子:

这些技术之间的“关键区别”是 Lasso 将不太重要的特征的系数缩小到零,从而完全删除一些特征。因此,如果我们有大量特征,这对于

特征选择非常有效。 有关更多详细信息,请参阅以下线程@交叉验证:

Lasso 的稀疏性和优于岭的优势

Lasso 为什么提供变量选择?

在机器学习中,当比较相同损失函数和优化器的 L1(Lasso)和 L2(Ridge)正则化技术时,L1 正则化通常会导致权重更稀疏。这是由于这些正则化技术惩罚模型权重的方式存在根本差异。

0
投票
L1正则化(Lasso):这种方法将系数的绝对值作为惩罚项添加到损失函数中。 L1正则化的关键特征是能够将不太重要的特征系数缩小到零,从而有效地进行特征选择。此属性会导致稀疏性,这意味着模型的许多系数将完全等于零。

L2 正则化(岭):相比之下,L2 正则化添加系数的平方作为惩罚项。该技术倾向于将系数缩小到零,但不会将它们设置为零。相反,所有系数都会减少一定量,但它们仍然不为零,这意味着 L2 正则化本质上不会产生稀疏模型。

L1正则化背后的稀疏性原因在于其几何解释:L1惩罚具有菱形轮廓,通常与误差表面在一个轴上相交,导致系数恰好为零。相比之下,L2 惩罚具有圆形轮廓,不太可能与轴相交,因此不会促进稀疏性。

在比较具有相同损失函数和优化器的模型时,如果目标是实现某些系数恰好为零的稀疏模型,L1 正则化通常是首选。然而,重要的是要记住,L1 和 L2 正则化之间的选择还应该基于模型和手头数据的具体上下文和要求。

© www.soinside.com 2019 - 2024. All rights reserved.