我正在开发一个小型项目,将相似的句子聚集在一起。在实现这一目标之前,我必须对极其脏的数据进行预处理(这些数据都是用户输入、自由文本)。
我想到的预处理步骤之一是识别每个句子并将其分类为类别。尽管它是自由文本,但每个句子都有一些关键标记,例如“LOOK”、“REPLACE”、“CHECK”。
为了对每个句子进行分类,我研究了 NLP,并发现了 SpaCy。 SpaCy 中的组件之一 NER 似乎是完成此任务的完美选择。我相信我的用例是我不需要使用完整的 SpaCy 管道来进行此分类。我还了解我需要将自定义标签添加到 NER 中。
我的问题是 - 我可以使用
add_label()
将自定义标签添加到 SpaCy NER 中,并将 NER 运行到我的数据集上,而无需重新训练 SpaCy 模型吗?我的最终目标是根据关键字将句子简单地分类为一个类别。
尽管经过几天的研究,这一点还不清楚。
非常感谢对此的任何澄清。短暂性脑缺血发作。
据我了解,您不需要执行分类任务。 您的主要目标是聚类相似的句子,这可以通过 2 个步骤完成:
完成此操作后,您可以提供一个新句子进行推理,创建其嵌入并找到新句子最接近哪个集群(基本上是集群管道。