是否有模型或算法可以从纯文本中提取自定义标签和关键细节

问题描述 投票:0回答:1

我有一个 Azure 中的 blob(pdf),我将使用 OCR 从中提取文本,然后得到一个字符串结果。现在我想分析这段文本,以便我可以根据 pdf 的上下文标记文档。

例如:“KBU业务的ASR项目财务报告已到期……”

从这段文字中,我们需要确定该文档与 ASR、KBU、Finance 相关。

有什么办法可以做到这一点吗?我知道 NER 是通过自定义训练它的一种选择。我不确定它在产品中会有什么好处,因为我无法运行模型并在每次添加新文档时再次训练它。

我正在考虑有一个主表,其中有标签 -> 业务、项目、位置、缩写。因此,如果业务、项目、位置或缩写词以文本形式出现,NER 模型将使用各自的标签来标记它们。但我不确定是否要再次对他们进行再培训,我想保持父子关系,就像企业是项目父级一样。

azure nlp artificial-intelligence named-entity-recognition lda
1个回答
0
投票

最接近的是 Azure AI 文本分析并使用实体检测器 + 关键短语提取器:

https://learn.microsoft.com/en-us/azure/synapse-analytics/machine-learning/tutorial-text-analytics-use-mmlspark#entity- detector

© www.soinside.com 2019 - 2024. All rights reserved.