有哪些好的算法可以自动用城市/地区或原产地标记文本?也就是说,如果一个博客是关于纽约的,我如何以编程方式判断。是否有软件包/论文声称可以以一定程度的确定性做到这一点?
我已经研究了一些基于 tfidf 的方法、专有名词交叉点,但到目前为止,还没有取得惊人的成功,我很感激您的想法!
更普遍的问题是在给定一些主题列表的情况下将文本分配给主题。
简单/朴素的方法优于完整的贝叶斯方法,但我持开放态度。
您正在寻找一个“命名实体识别”系统,或简称 NER。有 几个 好 工具包 可以帮助您。 LingPipe 特别有一个非常不错的教程。 CAGEclass 似乎是围绕地名上的 NER 来的,不过我还没用过。 如果您要使用 Java,我建议使用 LingPipe NER 类。 OpenNLP 也有一些,但前者有更好的文档。
如果您正在寻找一些理论背景,
构建了一个有趣的系统并记录了它。
似乎可能是一个不错的选择。这就是您可能会发现的最简单的算法。