NLP - 为什么我们在加一平滑的分母中添加 V？

Question

在 NLP 中，当我们使用拉普拉斯（加一）平滑技术时，我们假设每个单词比实际计数多出现一次，公式如下

(c(wi-1,wi) + 1) / (c(wi-1) + V)

其中V是词汇量的大小。我的问题是，当我们只考虑前一个单词的计数时，为什么要添加 V。

我只有一个粗略的想法，即每个单词都会增加一个，所以我们必须按 V 时间对其进行标准化，但我仍然没有正确理解它。正如我所说，我们只考虑前一个单词的数量，所以为什么不直接加 1。

我还看到，如果我们添加 V，那么所有二元组的相加将是 1，这就是它应该的样子。但还有其他解释为什么是 V 吗？

Answer 1

我们在加性平滑函数的确定器中看到的

|V|

变量实际上并不是 n-gram 概率估计的直接定义。它源自：

首先，我们从一个天真的假设开始：如果我们将分子加 1，我们也会将分母加 1，以避免数学除法错误。

但是，我们不必为词汇表中的所有术语添加+1，而是可以简单地添加词汇表的大小，因此您会在分母中看到

sum(c(wi-1)) + |V|

，而不是

sum(c(wi-1) + 1)

，请注意“sum”函数的范围.