我正在用 Python 创建一个简历解析器算法,以提取 pdf 格式的简历中的经历。我正在尝试检测每种体验的组织名称。
我已经尝试过默认的 spaCy NER 模型和 Huggingface 上最流行的 NER 模型。我认为这里的问题是因为文本采用非结构化格式,例如:
Silver Technologies Ltd. Singapore Software Developer May 2008 – May 2009
该模型无法解析和标记文本。我正在尝试从这段文字中提取
Silver Technologies Ltd.
。解析器的其他部分正在使用基于规则的算法,因此我可以使用基于规则的算法进行组织检测。但我想不出适用于大多数示例的规则。我将不胜感激任何使用模型或基于规则的算法的建议。
如果您知道数据始终按此顺序(组织、城市、标题、日期),您会想到几个选项。没有什么是 100% 的,但规则的组合可能会让你足够接近 :
之前完成过 pdf 的文本解析任务,我想说最好的选择是测试和迭代。选择一个规则开始,然后列出匹配和拒绝的列表。检查匹配以确保它捕获了正确的内容。查看拒绝的信息,看看您错过了什么。然后调整你的规则并再次运行。需要多次迭代才能找出所有您未预料到的现实世界变化。人们用文字做奇怪的事情。
另请注意,pdf 中显示为单行的内容在 pdf 库的文本输出中可能会分成多行。我之前在用python解析pdf时遇到过这个问题。