我正在尝试使用 spacy 和 python 创建一个 NLP 项目,从文本中提取实体。
我需要一些自定义实体,因此我创建了一个带有注释文章的 JSON 文件,我用它来训练我的模型。
我面临的问题是,我不想创建新的自定义模型,而是想向现有模型(例如“en_core_web_sm”)添加一些实体,但是当我将配置文件中的 [components.ner] 源更改为“en_core_web_sm”时'我只得到新的实体输出。这就像预先训练的模型丢失了所有实体并且只使用新的自定义实体。
注意:此自定义训练模型比我使用基本“eng”模型时准确得多,但它只是不输出现有实体,仅输出新的自定义实体。
请让我知道如何将这些预制实体保留在我的新模型中。
这是我用来创建这个的教程: https://www.youtube.com/watch?v=p_7hJvl7P2A&t=685s
有关此问题的任何更新。我正在尝试类似并很高兴看到这个问题。我有一些疑问想请教。