我正在解析一系列自由格式的文本,其中一些文本包含位置信息——它可能是国家/大陆/城市,甚至只是一个地区,所以没有任何规范化。
例子: “17(M)土耳其——->美国/加拿大/英国/瑞典/意大利”
其中许多包含在 [Location] -> [Location] 的格式中,我正在使用一些正则表达式来查找此模式。
现在我有成千上万的模式,看起来像“美国 -> 英国”、“任何地方 -> 美国”或“美国 -> 新加坡/泰国/巴西”。我想通过从这些文本片段中识别位置来以某种方式规范化它们。
我在 Python 中尝试过一些包,如 spacy(通过 NER 解析并找到 GPE 标签)和其他包(地理、位置标记等),但结果不是很好。我认为问题是我的文本不是自然语言,所以 NER 不能正常工作。
我想知道完成这项任务的最佳方法是什么,这样我就可以从我的模式中提取标准化的位置。
提前致谢。