是否可以用java在PDF或Word文档中重新搜索文本?[已关闭]

问题描述 投票:3回答:2

我不要求任何产品推荐

我想用Java使用正则表达式从word文档或pdf文档中搜索文本。这可能吗?怎么做呢?

例如 PDF/DOC 样子是这样的。

(54) 关于键盘 更多信息日期: 29022003 打印。USFiled: 19032005 Viewed: 5 次 

现在我的目的是使用java对这个文档进行基于regex的搜索。

最初,我尝试了文本提取,但由于这些文本是非结构化的,而且是分散的,我无法使用提取的文本。

例如,我想这样做。

File fl = new File ("sample.pdf");
String res=  FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);    

我想要的输出是: (54) About Keyboard

如何实现我的目标?哪个库可以帮助我用Java来实现这个目标?

java regex pdf itext pdfbox
2个回答
1
投票

直接使用Java是不能搜索的。你可以使用 提卡 提取文件的内容,然后你可以应用正则表达式。


1
投票

我想使用Java的正则表达式从word文档或pdf文档中搜索文本。这可能吗?如何做到这一点?

Gnostice PDFOne for Java支持使用Java正则表达式搜索PDF文档中的文本。更多细节,请点击下面的链接。

http:/www.gnostice.comnl_article.asp?id=232&t=PDF_Text_Search_And_PDF_Text_Extraction_Using_PDFOne_for_Java。

声明:我为Gnostice工作。

© www.soinside.com 2019 - 2024. All rights reserved.