地理标记或地理标签文本内容的方法

问题描述 投票:0回答:2

有哪些好的算法可以自动用城市/地区或原产地标记文本?也就是说,如果一个博客是关于纽约的,我如何以编程方式判断。是否有软件包/论文声称可以以一定程度的确定性做到这一点?

我已经研究了一些基于 tfidf 的方法、专有名词交叉点,但到目前为止,还没有取得惊人的成功,我很感激您的想法!

更普遍的问题是在给定一些主题列表的情况下将文本分配给主题。

简单/朴素的方法优于完整的贝叶斯方法,但我持开放态度。

algorithm statistics nlp named-entity-recognition
2个回答
13
投票

您正在寻找一个“命名实体识别”系统,或简称 NER。有 几个 工具包 可以帮助您。 LingPipe 特别有一个非常不错的教程CAGEclass 似乎是围绕地名上的 NER 来的,不过我还没用过。 如果您要使用 Java,我建议使用 LingPipe NER 类。 OpenNLP 也有一些,但前者有更好的文档。

如果您正在寻找一些理论背景,

Chavez 等人。 (2005)

构建了一个有趣的系统并记录了它。


2
投票
潜在语义映射

似乎可能是一个不错的选择。这就是您可能会发现的最简单的算法。

© www.soinside.com 2019 - 2024. All rights reserved.