通过任意文本体确定地理位置

问题描述 投票:7回答:4

我的工作,我不完全知道如何处理项目。这个问题可以概括为以下几点:

  • 给定文本(有点像报告)的任意机构,确定报告的每个部分指的是什么地理位置。

地理位置的范围从国家到县(都在美国),所以它们的数量是有限的,但每个报告通常包含多个位置引用。例如,报告的第5条第约摸一个国家作为一个整体,然后再下一个5将是有关国家内个别县,或类似的东西。

我很好奇,什么是接近那样的问题的最好办法,也许在NLP或ML框架(Python或Java的)方面有具体的建议?

machine-learning nlp
4个回答
7
投票

我可以居然能有点帮助在这里(我的研究是地名分辨率的区域)。

如果我理解正确的话,你正在寻找一种方式,以(1)找到地名的文字,(2)澄清对地名的地理参考;(3)空间地整个句子或段落。

有很多开源包,可以做#1。 Stanford Core NLPOpenNLP

有迹象表明,可以做到#1和#2了几包。 CLAVIN大概是唯一可以使用了开放源代码的应用程序,可以在瞬间做到这一点。 Yahoo Placemaker费钱,但能做到这一点。

是不是真的有一个包,可以做#3。有一个叫TEXTGROUNDER做一种叫“文档地理位置”一个较新的项目,但同时代码可它不是建立在您的自己的输入文本运行。我只建议你看看吧,如果你渴望开始或有助于项目试图做这样的事情。

所有这三个任务仍在进行的研究的一部分,可以根据源文本的细节得到令人难以置信的复杂。您没有提供多少细节你的文本,但希望这些信息可以帮助你。


2
投票

老问题,但它可能是有用的给别人知道的Apache OpenNLP有一个称为GeoEntityLinker的插件,并采取记录的文字和句子,提取实体(toponymns),执行对USGS和GeoNames的gazateers(Lucene索引),立志查找(或者尝试至少)以多种方式topopnymns,并返回有关传入的文档中的每个句子中打进gazateer条目。它将与OpenNLP 1.6被释放,如果一切顺利的话....没有太大的文件,如果任何在这一点。

这是OpenNLP吉拉门票:https://issues.apache.org/jira/i#browse/OPENNLP-579

这是源代码:

http://svn.apache.org/viewvc/opennlp/addons/geoentitylinker-addon/

FYI:我主要的提交它的工作。


2
投票

识别地理位置提及使用OpenNLP或门等,主要问题就来了以后,当你的歧义名称相同的地方是相当琐碎。例如,在美国有一个名为“布里斯托尔” 29处。哪一个是正确的?

还有,你可以用它来消除歧义的几种方法。一个简单的一个是收集在文中提到的所有位置的列表,让他们的潜能经度/纬度,然后发现有距离的总和最小的设置。

一个更好的解决方案,我看到人们部署是从维基百科获取是指将所有物品,把它们像Lucene的文本数据库,然后用你的文字查询,通过测量一些相似性得分来寻找候选人之间最有前途的位置。这个想法是,除了单词“布里斯托尔”的文章中也有河流的名字,一个人,或者类似的东西会被提及。


0
投票

为了做任务,你需要标记的训练集。然后你训练过培训集的分类模型和预测的基础上,示范文本的新件的位置。你可以看到他们都在写在SCIKIT-学Top此示例代码一起工作:http://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html

标记的训练集:

你可以在训练集,其中在训练中每个样本是(一个段落,REGION_ID)训练一个分类。该REGION_ID可以是一个国家,地区或城市的ID。

训练分类模型:

你建立单词的袋各样品的(例如对unigram)模型和在所述标记的训练集训练分类器(例如,逻辑回归与L1正规化)。你可以使用任何工具,但我建议使用Python中,这是非常简单而有效的使用SCIKIT-学习。

预测:

训练结束后,给出一个段落或一段文字,训练的模型是能够找到它REGION_ID这是基于样品中所用的字眼。

记住调节在发展设定为取得良好的效果调整参数(防止过度拟合训练样本)。

阅读my paper并以文字的地理位置this onehttp://www.aclweb.org/anthology/N15-1153

和相应的海报:http://www.slideshare.net/AfshinRahimi2/geolocation-twittertextnetwork-48968497

此外,我已经写了a tool称为Pigeo这正是这么做的,并配有预训练模式。除了这些作品有很多的基于文本的地理位置等的研究论文,你可以找到。

© www.soinside.com 2019 - 2024. All rights reserved.