将长PDF页面拆分为多个页面

问题描述 投票:0回答:1

将一个很长的pdf页面拆分成单独的页面的最佳方法是什么?在这种情况下,一页图像由最初具有黑色线的多个字母大小的页面组成,其中每个页面应该被划分。需要说明的是,它是一个PDF文档,只有一个页面。单页是数百页的图像,因此它是一个非常长的图像。

https://filebin.net/h2wiqckndsugnr1o/sample_pdf_long3.pdf

图像中的页面大小不一致,因为在某些字母大小的页面上删除了空白区域,因此有些页面比其他页面长。

这解释了问题:https://dustinfreeman.org/blog/pdf-splitting/但是,他们没有解决方案来解决分页符未正确对齐的问题。

是否有软件或解决方案以编程方式将单个图像提取到单个pdf文档中的多个页面中?

pdf artificial-intelligence ocr
1个回答
0
投票

我建议你使用这种方法

  1. 从第一页的内容创建XObject。
  2. 创建一些较小的页面。
  3. 使用负顶部偏移在每个页面上绘制XObject。

XObject的不同部分将在不同页面上可见。文件大小不会增加太多,因为图像将被重用。

您需要计算每页的顶部偏移量和大小。当然,您可以手动执行此操作。或者您可以使用某种计算机视觉算法来查找水平黑线。您必须先提取图像。给定这些行的坐标数组,您将能够计算页面边界。

© www.soinside.com 2019 - 2024. All rights reserved.