关于单词嵌入的问题（word2vec）[关闭]

问题描述投票：1回答：1

我试图理解word2vec（字嵌入）架构，我对此几乎没有问题：

neural-network

word2vec

word-embedding

1个回答

5
投票

首先，为什么word2vec模型是对数线性模型？因为它在输出层使用了soft max？

确切地说，softmax是对数线性分类模型。目的是在输出处获得可被视为后验概率分布的值

第二，为什么word2vec删除隐藏层？它只是因为计算复杂性？第三，为什么word2ved不使用激活功能？比较NNLM（神经网络语言模型）。

我认为你的第二个和第三个问题是关联的，因为额外的隐藏层和激活函数会使模型比必要的更复杂。请注意，虽然未明确制定激活，但我们可以将其视为线性分类函数。似乎word2vec模型试图建模的依赖关系可以通过输入字之间的线性关系来实现。

添加非线性激活函数允许神经网络映射更复杂的函数，这反过来又可以使输入适合更复杂的事物，而不会保留word2vec所寻求的依赖关系。

另请注意，线性输出不会饱和，这有助于基于梯度的学习。