有没有办法了解word2vec的输出功能？

问题描述投票：1回答：1

我想了解每个维度在word2vec的输出中的含义。

例如，如果我用一个热编码变量创建决策树，则我可以准确分辨出分类变量中哪个类别负责拆分。但是，如果我使用嵌入，则无法解释这些拆分的原因。

我知道Embedding（King）的著名示例-Embedding（Man）+ Embedding（Woman）= Embedding（Queen）。从这个例子中，我们可以说“特许权”的特征已经被理解。

我想一种方法是基于余弦相似度对相似的数据点进行聚类，以获得有关输出特征是什么的上下文。

例如，如果我得到一个数据点的最近3个邻居为“公里”，“英寸”和“英里”。我可以推断出“长度”是可能负责决策树中的拆分的原因。但是，我想知道是否还有另一种方法。

machine-learning

word2vec

word-embedding

1个回答

0
投票

首先，词嵌入大多是在无监督的情况下生成的。因此，当播种时，实际上可以找到不同的属性。实际上，某些Word2Vec运行可能永远不会选择版税或长度属性。

此外，这些属性在其顺序方面有些意义。只要在同一位置找到相同的属性就很重要。

基于此，从根本上需要对Word Embeddings进行研究，以将其项与我们将其标记为的内容相关联。令人着迷的问题是，有哪些项目与我们的概念无关，但对于词嵌入仍然有用。

您可能感兴趣的是语义本体，以及它们如何关联不同的语义概念。