使用哪个斯坦福 NLP 包进行内容分类>

Question

我的表格中有大约 5000 个术语，我想将它们分组为有意义的类别。

例如一些术语是：

Nissan
Ford
Arrested
Jeep
Court

结果应该是 Nissan、Ford、Jeep 归为一类，Arrested 和 Court 归为另一类。我查看了斯坦福自然语言处理分类器。我是否可以假设这是为我做这件事的正确选择？

Answer 1

如果专有名词不多，我建议您使用NLTK。您可以使用 WordNet 的语义相似度作为特征并尝试对单词进行聚类。这是关于如何做到这一点的讨论。

要使用斯坦福分类器，您需要知道您想要多少个桶（类）的单词。此外，我认为这是针对文档而不是文字。

Answer 2

这是一个有趣的问题，Google 发布的 word2vec 模型可能会有所帮助。

简而言之，一个单词由模型生成的 N 维向量表示。 Google 提供了一个出色的模型，该模型从新闻部门训练的超过 1000 亿个单词的模型中返回 300 维向量。

有趣的是，这些向量中编码有语义。假设您有单词 King、Man 和 Woman 的向量。一个简单的表达式 (King - Man) + Woman 将产生一个非常接近 Queen 向量的向量。

这是通过距离计算（余弦距离是默认值，但您可以在向量上使用自己的距离）来确定单词之间的相似性来完成的。

对于您的示例，吉普车和福特之间的距离将比吉普车和 Arrested 之间的距离小得多。通过这个，您可以“逻辑地”对术语进行分组。