比较由PDF页面制成的Tif文件

问题描述 投票:0回答:1

我有一个大约500页的PDF文件,其中有很多重复项。在制作PNG缩略图之前,先制作MD5哈希表以比较所有内容。很好。现在,我不再使用png缩略图,而是使用tif文件,因为我必须使用“ tiffsep”来删除一些专色。如果我比较tif文件的哈希值,甚至比较我从tif文件中制作的png文件的哈希值,即使它们在视觉上是相同的,也完全不同。

我试图从tiff元数据中删除datetimefield和分页信息,但仍然相同。

我该怎么办?多数民众赞成在代码的缩略图如何生成inputpdf = PdfFileReader(path) count_pages = inputpdf.getNumPages() command = "gs -sDEVICE=tiffsep -dNoSeparationFiles -dLastPage="+str(count_pages)+" -sOutputFile="/home..../page_%d.tif" subprocess.Popen(command,shell=True,stdin....)

python hash thumbnails
1个回答
0
投票

解决了问题。

首先,我制作了Tiff文件以排除专色。然后,我必须转换为JPG,然后建立哈希。Tiffs中PNG的哈希值不相同。

© www.soinside.com 2019 - 2024. All rights reserved.