我不要求任何产品推荐
我想用Java使用正则表达式从word文档或pdf文档中搜索文本。这可能吗?怎么做呢?
例如 PDF/DOC
样子是这样的。
(54) 关于键盘 更多信息日期: 29022003 打印。USFiled: 19032005 Viewed: 5 次
现在我的目的是使用java对这个文档进行基于regex的搜索。
最初,我尝试了文本提取,但由于这些文本是非结构化的,而且是分散的,我无法使用提取的文本。
例如,我想这样做。
File fl = new File ("sample.pdf");
String res= FindBYRegex ("(?s)\\(54\\)\\s*(.*?)\\s*(?=\\(\\d|$\\))");
System.out.println (res);
我想要的输出是: (54) About Keyboard
如何实现我的目标?哪个库可以帮助我用Java来实现这个目标?
直接使用Java是不能搜索的。你可以使用 提卡 提取文件的内容,然后你可以应用正则表达式。
我想使用Java的正则表达式从word文档或pdf文档中搜索文本。这可能吗?如何做到这一点?
Gnostice PDFOne for Java支持使用Java正则表达式搜索PDF文档中的文本。更多细节,请点击下面的链接。
声明:我为Gnostice工作。