如何使用SpaCy NER?

问题描述 投票:0回答:1

我正在开发一个小型项目,将相似的句子聚集在一起。在实现这一目标之前,我必须对极其脏的数据进行预处理(这些数据都是用户输入、自由文本)。

我想到的预处理步骤之一是识别每个句子并将其分类为类别。尽管它是自由文本,但每个句子都有一些关键标记,例如“LOOK”、“REPLACE”、“CHECK”。

为了对每个句子进行分类,我研究了 NLP,并发现了 SpaCy。 SpaCy 中的组件之一 NER 似乎是完成此任务的完美选择。我相信我的用例是我不需要使用完整的 SpaCy 管道来进行此分类。我还了解我需要将自定义标签添加到 NER 中。

我的问题是 - 我可以使用

add_label()
将自定义标签添加到 SpaCy NER 中,并将 NER 运行到我的数据集上,而无需重新训练 SpaCy 模型吗?我的最终目标是根据关键字将句子简单地分类为一个类别。

尽管经过几天的研究,这一点还不清楚。

非常感谢对此的任何澄清。短暂性脑缺血发作。

python nlp spacy named-entity-recognition
1个回答
0
投票

据我了解,您不需要执行分类任务。 您的主要目标是聚类相似的句子,这可以通过 2 个步骤完成:

  1. 为您的数据集生成嵌入。
  2. 应用一些聚类 算法(kmeans、dbscan)等

完成此操作后,您可以提供一个新句子进行推理,创建其嵌入并找到新句子最接近哪个集群(基本上是集群管道。

© www.soinside.com 2019 - 2024. All rights reserved.