是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式?
我搜索了类似的问题,但没有运气。
我希望能够从PDF中提取文本,可能是图像。我不打算将PDF嵌入HTML中。
就像我在上面的评论中提到的,使用可以从here下载的工具Able2Extract7将pdf转换为html绝对是可能的。
我已经使用这个工具差不多2年了,我很高兴。此工具允许您将PDF转换为Word,Excel,PowerPoint,Publisher,HTML,OO等。请参阅屏幕截图
Imp注意:此工具不是免费软件。
HTH
如果您使用的是Linux,请尝试使用pdftohtml:
sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html
开源电子书转换器Calibre还可以将PDF文件转换为HTML,并可在MacOS,Windows和Linux上使用。
简单地将PDF文件“转换”为HTML在技术上是不可能的。 PDF格式更像是“画布”,您可以在其中“放置”文本块和图像,而HTML需要CSS或许多表来“放置”块。此外,PDF文件嵌入图像,而HTML只调用其他文件。 还有许多其他差异的例子,但实质上,就像要求转换图像或带有文本的视频一样。
但是,您可以从PDF文件中读取,然后使用库或其他高级技术从中提取文本和图像。 .Net有一些库,例如:http://forums.asp.net/post/2167442.aspx
如果您只需要转换一个文件一次,则可以在Illustrator中打开pdf文件,然后将其导出为html。或者您可以选择所有文档(ctrl + a),复制它,然后将其粘贴到Word中,然后将结果保存为html。它将远非完美,但它将是一个开始。
下载
import java.io.InputStream;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.tools.PDFText2HTML;
// .....
try {
InputStream is = // ..... Read PDF file
PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
PDFText2HTML converter = new PDFText2HTML(); // the converter
String html = converter.getText(pdd); // That's it!
pdd.close();
is.close();
} catch (IOException ioe) {
// ......
}
请注意:图像不会被推送到HTML输出。
将PDF转换为HTML并不困难。有许多在线选项,但可能会将您的数据暴露给第三方。请按照以下步骤操作,输出效果很好。
C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf
最终命令:
pdf2htmlEX.exe c:\1\abc.pdf
(你当然可以缩短文件夹的名称,但是,我保留它与解压缩下载后的情况相同。我假设您可以将cmd中的目录更改为所需的文件夹,否则Google将如何更改。)abc.pdf将转换为HTML,并将保存为与exe文件相同的文件夹中的abc.html。
不确定它是否有用,但如果您需要一次性转换,您可以尝试这个免费的在线工具:https://www.readkong.com/
多次使用此网站。它生成的html与pdf原始源相同。即使对于非常复杂的pdf,也没有丑陋和破碎的标记,没有html mashup等等。
是的,这绝对是可能的。如果你在ubuntu linux上
apt-get install htmltopdf
然后
htmltopdf myFile.pdf myFile.htm -c -noframes
如果你想查看所有标志的含义,那么只需输入即可
htmltopdf
如果您不在Linux上,那么您可以使用大量工具来实现这一目标。