我正在尝试培训一种新的Spacy模型来识别对法律文章的引用。我开始使用空白模型,并根据文档中给出的示例训练ner管道。
即使输入点有数千个,训练模型的性能也很差。我试图找出原因。
一个可能的答案是,我提供完整的段落来训练,而不是示例中的句子。这些段落中的每一段都可以多次提及法律条款。这可能是一个问题吗?
段落应该没问题。你能给出一个输入数据点的例子吗?