PDF 的文本选择顺序由什么决定,生成 PDF 时如何改进?

问题描述 投票:0回答:2

许多 PDF,尤其是通过演示软件、桌面出版或乳胶排版导出的 PDF,似乎具有不合逻辑的文本选择选取框顺序。

例如,在我的一个文档中选择数学方程的一部分似乎会随机选择页面上其他地方的另一大方程组,即使它们是由正文分隔的。这是 PDF 查看器(mac 预览)中的问题还是 PDF 文件本身的问题。以编程方式生成 PDF 时应遵循哪些程序,以确保文本选择的逻辑顺序。

pdf text textbox selection
2个回答
1
投票

PDF 查看器中的文本选择由查看器中的算法确定。不同的观众会有不同的算法并产生不同的结果。一些观看者会利用结构标签(如果存在),而另一些观看者即使存在也会忽略这些标签。

不幸的是,作为 PDF 作者,您无法影响任何特定查看器软件如何将文本渲染指令解释为单词,然后解释为文本块,解释为页面区域,最后解释为文本选择。


0
投票

特别是对于多列 LaTeX 文档,我发现增加列间距有助于确保不会无意中选择相邻列中的文本。 Atril 查看器和

pdftotxt
命令都对此调整做出了类似的响应。

在我有限的实验中,joelgeraci提到的算法考虑的因素之一似乎是文本之间的水平间距和附近文本块的垂直对齐。如果两段文本的高度大致相同,并且彼此之间的距离在 5 毫米左右,则选择算法将假定它们是同一行的一部分。

© www.soinside.com 2019 - 2024. All rights reserved.