自定义提取器未检测到间距的问题

问题描述 投票:0回答:1

我通过 GCP 的文档 AI 创建并训练了一个自定义文档提取器,并注意到它并不总是注意到两组数字之间的空格,并最终将它们放在一起。

下面显示了一个示例,其中文档显示

8 95
,但该工具将其解释为
895
,在这种情况下并不准确。

我认识到这可能只是由于文档本身造成的,而且即使对于人眼来说,间距也可能不是很明显。

另外,作为旁注,在训练提取器并使用边界框工具时,我注意到它通常也会忽略空间,但我个人会继续相应地调整它以包含空间。我希望这会对模型有所帮助,但情况似乎并非如此。

最终,可能需要添加和注释更多的培训/测试文档,但希望有人在可能的情况下提供一些其他见解!

google-cloud-platform cloud-document-ai google-ai-platform
1个回答
0
投票

听起来您已经采取了一些良好的步骤来尝试解决自定义文档提取器的问题。以下是一些可能对您有所帮助的其他建议:

  • 尝试通过引入数字之间的间距变化来增强训练数据。这可以帮助模型学习识别不同的间距模式并提高其准确性。

    对输入数据的不同特征或表示进行实验,这可能有助于模型更好地区分应该保留的空间和不应该保留的空间。

  • 您可以实施一些后处理步骤来纠正与间距相关的任何错误。例如,您可以使用正则表达式来识别应以空格分隔的数字序列,并在需要时插入适当的空格。

  • 仔细查看模型犯错误的具体示例,并尝试识别可能导致问题的任何常见模式或特征。这可以帮助指导您提高模型性能的努力。

将此答案发布为社区 Wiki,以帮助此用例获得一些协作和精确的解决方法。请随意编辑此答案以获取更多信息,以及是否有针对此用例的其他可能的解决方法/直接解决方案。

© www.soinside.com 2019 - 2024. All rights reserved.