NLP 新手,有一个关于词嵌入的问题。作为学习练习,我正在尝试训练自己的基于 word2vec 的一组词嵌入。我已经下载并清理了一个英语句子语料库,我想我对训练应该如何进行有很好的了解,但有些东西我仍然不太明白。
正如人们可能想象的那样,语料库包含更多常见单词的实例,例如“the”、“and”等。词频分布是一个相当极端的幂律,这是有道理的。我的问题是:当我生成样本来训练单词嵌入时,处理这个问题的最佳实践是什么?
我可以看到一些选项:
有人可以在这里给我一些指导吗?人们通常如何应对这种不平衡?
我想我找到了答案,但我不是 100% 确定(因为我对这件事还很陌生)。请大家不吝指正。
我认为我最初的问题是基于对原始word2vec论文的误解:我不认为你应该从词汇表中完全删除常用单词,我认为你应该忽略它们当你'重新生成训练对(在我的例子中,是skipgrams)。这些单词保留在词汇表中,但是当您以某种概率制作训练数据时,您(咳咳)会跳过它们。
所以答案(根据论文)是选项 1。