如何在 Python 中提取非自然语言的位置名称？

问题描述投票：0回答：0

我正在解析一系列自由格式的文本，其中一些文本包含位置信息——它可能是国家/大陆/城市，甚至只是一个地区，所以没有任何规范化。

例子： “17(M)土耳其——->美国/加拿大/英国/瑞典/意大利”

其中许多包含在 [Location] -> [Location] 的格式中，我正在使用一些正则表达式来查找此模式。

现在我有成千上万的模式，看起来像“美国 -> 英国”、“任何地方 -> 美国”或“美国 -> 新加坡/泰国/巴西”。我想通过从这些文本片段中识别位置来以某种方式规范化它们。

我在 Python 中尝试过一些包，如 spacy（通过 NER 解析并找到 GPE 标签）和其他包（地理、位置标记等），但结果不是很好。我认为问题是我的文本不是自然语言，所以 NER 不能正常工作。

我想知道完成这项任务的最佳方法是什么，这样我就可以从我的模式中提取标准化的位置。

提前致谢。

python

geolocation

geocoding

geo