感知器权重更新规则的直觉

w(t + 1) = w(t) + y(t)x(t).

假设我们有一个线性可分离的数据集。

在迭代 t 时，其中 t = 0, 1, 2, ...,

为什么这个更新规则会将边界向正确的方向移动？

19
投票

感知器的输出是实例和权重之间点积的硬限制。让我们看看更新后情况有何变化。自从

w(t + 1) = w(t) + y(t)x(t),

然后

x(t) ⋅ w(t + 1) = x(t) ⋅ w(t) + x(t) ⋅ (y(t) x(t)) = x(t) ⋅ w(t) + y(t) [x(t) ⋅ x(t))].

请注意：

这如何相对于 x(t) 移动边界？

如果 x(t) 被正确分类，则算法不会应用更新规则，因此不会发生任何变化。
如果 x(t) 被错误地分类为负数，则 y(t) = 1。由此可见，新的点积增加了 x(t) ⋅ x(t)（为正）。因此，就 x(t) 而言，边界朝正确的方向移动。
相反，如果 x(t) 被错误地分类为正，则 y(t) = -1。由此可见，新的点积减少了 x(t) ⋅ x(t)（为正）。因此，就 x(t) 而言，边界朝正确的方向移动。

3
投票

感知器更新规则的更好推导记录在here和here。推导使用梯度下降。

PS：我非常努力地想了解为什么有人将 x 和 y 相乘来得出 w 的更新。因为 w 是单维 (y = wx+c) 的斜率，并且斜率 w = (y/x) 而不是 y * x。