在 NLP 中,当我们使用拉普拉斯(加一)平滑技术时,我们假设每个单词比实际计数多出现一次,公式如下
(c(wi-1,wi) + 1) / (c(wi-1) + V)
其中V是词汇量的大小。我的问题是,当我们只考虑前一个单词的计数时,为什么要添加 V。
我只有一个粗略的想法,即每个单词都会增加一个,所以我们必须按 V 时间对其进行标准化,但我仍然没有正确理解它。正如我所说,我们只考虑前一个单词的数量,所以为什么不直接加 1。
我还看到,如果我们添加 V,那么所有二元组的相加将是 1,这就是它应该的样子。但还有其他解释为什么是 V 吗?