我的表格中有大约 5000 个术语,我想将它们分组为有意义的类别。
例如一些术语是:
Nissan
Ford
Arrested
Jeep
Court
结果应该是 Nissan、Ford、Jeep 归为一类,Arrested 和 Court 归为另一类。我查看了斯坦福自然语言处理分类器。我是否可以假设这是为我做这件事的正确选择?
这是一个有趣的问题,Google 发布的 word2vec 模型可能会有所帮助。
简而言之,一个单词由模型生成的 N 维向量表示。 Google 提供了一个出色的模型,该模型从新闻部门训练的超过 1000 亿个单词的模型中返回 300 维向量。
有趣的是,这些向量中编码有语义。假设您有单词 King、Man 和 Woman 的向量。一个简单的表达式 (King - Man) + Woman 将产生一个非常接近 Queen 向量的向量。
这是通过距离计算(余弦距离是默认值,但您可以在向量上使用自己的距离)来确定单词之间的相似性来完成的。
对于您的示例,吉普车和福特之间的距离将比吉普车和 Arrested 之间的距离小得多。通过这个,您可以“逻辑地”对术语进行分组。