我被困在一个项目中,在该项目中,我必须从PDF文件中读取文本并搜索一些特定术语。我使用了pdfparser,但是它在某些pdf版本上失败了,它也无法处理大型PDF文件,并且即使禁用内存限制对我也不起作用,并且会出现内存错误。我认为在这种情况下可以逐页阅读PDF文件。能给我提供解决方案吗?干杯!
[逐页阅读PDF文档可能会有所帮助,这取决于您的PDF软件。
并非所有PDF软件的创建方式都是一样的,您可能只是在付款。如果您必须设计一种策略来处理40-50MB文件的内存限制,那么大文件可能会遇到更糟糕的性能问题。