我已经使用MLCP将一些PDF文件加载到MarkLogic中,然后通过CPF默认PDF转换将其转换为XML。某些PDF是可填写的,但填写的所有内容都不包含在转换中。有没有办法转换它?
这些PDF表单是否已由用户填写?如果是这样,某些转换器不会传输PDF表单数据。 PDFTables可能有效 - API允许您将PDF转换为XML,包括任何表单数据。
作为Python中的示例(可以使用任何语言):
import pdftables_api
c = pdftables_api.Client('my-api-key')
c.xml('input.pdf', 'output.xml')