如何使用C#检查是否在非表格PDF上选中了复选框?

问题描述 投票:0回答:1

使用c#,我想看看是否在PDF页面上选中了特定的复选框。 PDF文件不是表格。

PDF可能是这样的:

示例文件在这里:MDS30ResidentP2.pdf(在此示例文件中,我想以某种方式弄清楚问题A1000中的复选框“E”被检查。再次:PDF不是“格式”格式!)。

PS:以下帖子都没有解决我的问题:

c# pdf itextsharp pdf-parsing
1个回答
1
投票

OCR可能是唯一的方法。从PDF的角度来看,有一个矩形,其中一些矩形有两条线穿过它们。它们甚至不是图像,而是实际的矢量绘图命令。您可能会寻找额外的“x”绘图,但它与旁边显示的文本无关,因此必须编写一些模糊逻辑来估计“x”到什么“文本”,我认为你' d结束了一堆误报。如果你有一堆这些PDF,那么写一些东西可能是值得的,否则就是OCR或手动输入。

如果你想解析PDF,你可以尝试something like this,这有点难看,但如果你一遍又一遍地解析相同的PDF,它可能会工作正常。如果你想要更通用和可重复使用的东西,我会查看iText的post here的创建者。他的帖子是针对可选内容组的,但它应该给你一些想法。

© www.soinside.com 2019 - 2024. All rights reserved.