NLP、NER --> python 提取个人信息(如名字、姓氏、财务代码)

问题描述 投票:0回答:1

我正在开发一个从自定义文档中提取个人信息的项目。特别是,我有一个包含大量姓名和信息的 txt 文件,但我想提取姓名和意大利财政代码。 我的实际方法是基于正则表达式,但我不是很满意,因为正则表达式模式确实始终匹配我需要的所有内容。我正在考虑 NLP 方法,但我不知道如何实现。我认为实际上没有任何图书馆接受过意大利语词汇培训。请问您能帮助我或给我一些建议吗? 提前非常感谢!!

我尝试了一种基于正则表达式的方法,该方法在标准文档上效果很好,但在强自定义文档上它经常失败。

python nlp named-entity-recognition
1个回答
0
投票

我会尝试直接用意大利语提示 ChatGPT 为您提取此信息。他们有一个 API,您可以使用简单的 Python 代码访问,您可以告诉它您到底想要提取什么以及以什么输出格式(例如 json)。

此外,您还可以使用传统的 NER 模型,主要用于名称,例如还支持意大利语的 spacy(请参阅:https://spacy.io/usage/models)或需要付费的 Google 模型。

我相信,使用正则表达式来保护财务信息将获得最佳结果。

© www.soinside.com 2019 - 2024. All rights reserved.