使用哪个斯坦福 NLP 包进行内容分类>

问题描述 投票:0回答:2

我的表格中有大约 5000 个术语,我想将它们分组为有意义的类别。

例如一些术语是:

Nissan
Ford
Arrested
Jeep
Court

结果应该是 Nissan、Ford、Jeep 归为一类,Arrested 和 Court 归为另一类。我查看了斯坦福自然语言处理分类器。我是否可以假设这是为我做这件事的正确选择?

machine-learning nlp stanford-nlp categorization
2个回答
2
投票

如果专有名词不多,我建议您使用NLTK。您可以使用 WordNet 的语义相似度作为特征并尝试对单词进行聚类。这是关于如何做到这一点的讨论

要使用斯坦福分类器,您需要知道您想要多少个桶(类)的单词。此外,我认为这是针对文档而不是文字。


0
投票

这是一个有趣的问题,Google 发布的 word2vec 模型可能会有所帮助。

简而言之,一个单词由模型生成的 N 维向量表示。 Google 提供了一个出色的模型,该模型从新闻部门训练的超过 1000 亿个单词的模型中返回 300 维向量。

有趣的是,这些向量中编码有语义。假设您有单词 King、Man 和 Woman 的向量。一个简单的表达式 (King - Man) + Woman 将产生一个非常接近 Queen 向量的向量。

这是通过距离计算(余弦距离是默认值,但您可以在向量上使用自己的距离)来确定单词之间的相似性来完成的。

对于您的示例,吉普车和福特之间的距离将比吉普车和 Arrested 之间的距离小得多。通过这个,您可以“逻辑地”对术语进行分组。

© www.soinside.com 2019 - 2024. All rights reserved.