如何在 Python 中提取非自然语言的位置名称?

问题描述 投票:0回答:0

我正在解析一系列自由格式的文本,其中一些文本包含位置信息——它可能是国家/大陆/城市,甚至只是一个地区,所以没有任何规范化。

例子: “17(M)土耳其——->美国/加拿大/英国/瑞典/意大利”

其中许多包含在 [Location] -> [Location] 的格式中,我正在使用一些正则表达式来查找此模式。

现在我有成千上万的模式,看起来像“美国 -> 英国”、“任何地方 -> 美国”或“美国 -> 新加坡/泰国/巴西”。我想通过从这些文本片段中识别位置来以某种方式规范化它们。

我在 Python 中尝试过一些包,如 spacy(通过 NER 解析并找到 GPE 标签)和其他包(地理、位置标记等),但结果不是很好。我认为问题是我的文本不是自然语言,所以 NER 不能正常工作。

我想知道完成这项任务的最佳方法是什么,这样我就可以从我的模式中提取标准化的位置。

提前致谢。

python geolocation geocoding geo
© www.soinside.com 2019 - 2024. All rights reserved.