对于相同的损失函数和优化器，L1 或 L2 正则化是否给出最稀疏的权重？

Question

如果我考虑一个数据集，对于相同的损失函数和相同的优化器，哪种正则化技术（L1 正则化或 L2 正则化）会输出最高的稀疏权重？

Answer 1

根据定义，L1 正则化（套索）强制某些权重为零，从而导致解决方案更稀疏；根据维基百科关于正则化的条目：

可以证明L1范数会导致稀疏性

另请参阅走向数据科学的L1 和 L2 正则化方法帖子：

这些技术之间的“关键区别”是 Lasso 将不太重要的特征的系数缩小到零，从而完全删除一些特征。因此，如果我们有大量特征，这对于
特征选择非常有效。 有关更多详细信息，请参阅以下线程@交叉验证：

Lasso 的稀疏性和优于岭的优势

Lasso 为什么提供变量选择？

在机器学习中，当比较相同损失函数和优化器的 L1（Lasso）和 L2（Ridge）正则化技术时，L1 正则化通常会导致权重更稀疏。这是由于这些正则化技术惩罚模型权重的方式存在根本差异。

Answer 2

L1正则化（Lasso）：这种方法将系数的绝对值作为惩罚项添加到损失函数中。 L1正则化的关键特征是能够将不太重要的特征系数缩小到零，从而有效地进行特征选择。此属性会导致稀疏性，这意味着模型的许多系数将完全等于零。

L2 正则化（岭）：相比之下，L2 正则化添加系数的平方作为惩罚项。该技术倾向于将系数缩小到零，但不会将它们设置为零。相反，所有系数都会减少一定量，但它们仍然不为零，这意味着 L2 正则化本质上不会产生稀疏模型。

L1正则化背后的稀疏性原因在于其几何解释：L1惩罚具有菱形轮廓，通常与误差表面在一个轴上相交，导致系数恰好为零。相比之下，L2 惩罚具有圆形轮廓，不太可能与轴相交，因此不会促进稀疏性。

在比较具有相同损失函数和优化器的模型时，如果目标是实现某些系数恰好为零的稀疏模型，L1 正则化通常是首选。然而，重要的是要记住，L1 和 L2 正则化之间的选择还应该基于模型和手头数据的具体上下文和要求。