SpaCy 用于检测商家名称

问题描述 投票:0回答:1

我在 NLP 领域还是个新手,spaCy 是我遇到的第一个工具。

我需要从银行短信中自动检测商户名称。 例如: “使用尾号为 1234 的卡在 FARMACIA LITORAL 支付 4.10 欧元已被接受。” 或者 “在 AliExpress 支付了 3.77 欧元,今天花费:3.77 欧元”

我的第一个想法是使用命名实体并检测“ORG”或“GPE”标签,但它不适用于缩写和剪切,例如“AMZN MKTP”或“ASICS FO”。

nlp = spacy.load("en_core_web_trf")
doc = nlp("Paid €3.77 at AMZN MKTP Spent today: €3.77")

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

3.77 6 10 钱 今天 30 35 日期 3.77 38 42 钱

请问要往哪个方向移动?

nlp spacy
1个回答
0
投票

将算法方法与 NER 一起使用可能会很有用。银行使用模板生成消息,因此您可以创建规则以从这些模板中提取商家。另外,您可以尝试查找商家数据库并使用哈希匹配商家。否则,使用名称实体检测是一个好方法,但您的模型选择可能不是最佳的。检查 Huggingface NER 模型并尝试那里的示例(也许最好从它开始)。

© www.soinside.com 2019 - 2024. All rights reserved.