是否有模型或算法可以从纯文本中提取自定义标签和关键细节

问题描述投票：0回答：1

我有一个 Azure 中的 blob(pdf)，我将使用 OCR 从中提取文本，然后得到一个字符串结果。现在我想分析这段文本，以便我可以根据 pdf 的上下文标记文档。

例如：“KBU业务的ASR项目财务报告已到期……”

从这段文字中，我们需要确定该文档与 ASR、KBU、Finance 相关。

有什么办法可以做到这一点吗？我知道 NER 是通过自定义训练它的一种选择。我不确定它在产品中会有什么好处，因为我无法运行模型并在每次添加新文档时再次训练它。

我正在考虑有一个主表，其中有标签 -> 业务、项目、位置、缩写。因此，如果业务、项目、位置或缩写词以文本形式出现，NER 模型将使用各自的标签来标记它们。但我不确定是否要再次对他们进行再培训，我想保持父子关系，就像企业是项目父级一样。

azure

nlp

artificial-intelligence

named-entity-recognition

lda

1个回答