我试着去得到一个excel文件的行。我已经实现。
1。检索的.xls,.XLSX文件 2 - 。这些文件转换为TIFF图像 3-。提高图像更好的文本识别 4-。标识网页 5。创建的文档 6-。识别页面和字段 7。填充字段(这是是我的问题)
例如,在表等
Name | Age | Size
Juan | 26 | 1.90m
Max | 25 | 1.85m
Victor | 26 | 1.65m
我的项目可以找到关键字姓名,年龄和尺寸,并且在设置我可以告诉他,OK值向下行和组的前端和后端的话,但它只会满山遍野的姓名,年龄和大小与第一值以下,而忽略其他人,datacap似乎并不有一个字段数组类型。
在图像中,你可以看到,只有一个办法添加字段,他们是标量(只有一个值),添加多只增加了一次对多个领域,而不是多个值哈哈领域。
这是我的领域是如何被检索
我面对的另一个问题是,我的excel表被以填充文档格式分裂,和我期待整个片材在1号文件转换不是4-
在图像中,那些4页是从相同片材(在Excel文件)
IBM文档仍然缺乏信息,有一些徒有其标题和零信息洛尔一些网页。
同意为点1,它不支持像数组或一些东西,更多的是一种先进水平的任何领域。真正需要此功能,我们可能会看到来自IBM走在前面的东西。
再回到第二点,datacap将根据打印页数当打印的Excel等转换Excel中。你必须添加规则集合并那些在单一文件。要做到这一点,最常见的方法是使用由datacap给出tiffmerge开箱即用的。