如何将PDF转换为HTML?

问题描述 投票:17回答:7

是否有适当的库可用于将PDF转换为HTML或其他可轻松转换为HTML的格式?

我搜索了类似的问题,但没有运气。

我希望能够从PDF中提取文本,可能是图像。我不打算将PDF嵌入HTML中。

html pdf file-conversion
7个回答
8
投票

就像我在上面的评论中提到的,使用可以从here下载的工具Able2Extract7将pdf转换为html绝对是可能的。

我已经使用这个工具差不多2年了,我很高兴。此工具允许您将PDF转换为Word,Excel,PowerPoint,Publisher,HTML,OO等。请参阅屏幕截图

Imp注意:此工具不是免费软件。

HTH


5
投票

如果您使用的是Linux,请尝试使用pdftohtml:

sudo apt-get install poppler-utils
pdftohtml -enc UTF-8 -noframes infile.pdf outfile.html

开源电子书转换器Calibre还可以将PDF文件转换为HTML,并可在MacOS,Windows和Linux上使用。


3
投票

简单地将PDF文件“转换”为HTML在技术上是不可能的。 PDF格式更像是“画布”,您可以在其中“放置”文本块和图像,而HTML需要CSS或许多表来“放置”块。此外,PDF文件嵌入图像,而HTML只调用其他文件。 还有许多其他差异的例子,但实质上,就像要求转换图像或带有文本的视频一样。

但是,您可以从PDF文件中读取,然后使用库或其他高级技术从中提取文本和图像。 .Net有一些库,例如:http://forums.asp.net/post/2167442.aspx

如果您只需要转换一个文件一次,则可以在Illustrator中打开pdf文件,然后将其导出为html。或者您可以选择所有文档(ctrl + a),复制它,然后将其粘贴到Word中,然后将结果保存为html。它将远非完美,但它将是一个开始。


2
投票

下载

  • PDFBOX-2.0.3.jar
  • fontbox-2.0.3.jar
  • 预检2.0.3.jar
  • xmpbox-2.0.3.jar
  • PDFBOX工具-2.0.3.jar
  • PDFBOX调试器-2.0.3.jar

来自http://pdfbox.apache.org/

 import java.io.InputStream;
 import java.io.IOException;
 import org.apache.pdfbox.pdmodel.PDDocument;
 import org.apache.pdfbox.tools.PDFText2HTML;

    // .....
    try {
        InputStream is = // ..... Read PDF file
        PDDocument pdd = PDDocument.load(is); //This is the in-memory representation of the PDF document.
        PDFText2HTML converter = new PDFText2HTML(); // the converter
        String html = converter.getText(pdd); // That's it!
        pdd.close();
        is.close();
    } catch (IOException ioe) {
        // ......
    }

请注意:图像不会被推送到HTML输出。


1
投票

将PDF转换为HTML并不困难。有许多在线选项,但可能会将您的数据暴露给第三方。请按照以下步骤操作,输出效果很好。

  1. 打开the PDF2HTMLEX page。 (您可以按照我提到的后续步骤操作,也可以按照页面上的说明进行操作。)
  2. The package is available for download for Windows from here。 从许多可用选项中,我建议下载“pdf2htmlEX-win32-0.14.6-upx-with-poppler-data.zip(pdf2htmlEx.exe随UPX打包)”
  3. 下载和解压缩后转换只是一个cmd命令。 C:\Users\kjk\Downloads\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data>pdf2htmlEX.exe c:\1\abc.pdf 最终命令: pdf2htmlEX.exe c:\1\abc.pdf (你当然可以缩短文件夹的名称,但是,我保留它与解压缩下载后的情况相同。我假设您可以将cmd中的目录更改为所需的文件夹,否则Google将如何更改。)

abc.pdf将转换为HTML,并将保存为与exe文件相同的文件夹中的abc.html。


0
投票

不确定它是否有用,但如果您需要一次性转换,您可以尝试这个免费的在线工具:https://www.readkong.com/

多次使用此网站。它生成的html与pdf原始源相同。即使对于非常复杂的pdf,也没有丑陋和破碎的标记,没有html mashup等等。


-2
投票

是的,这绝对是可能的。如果你在ubuntu linux上

apt-get install htmltopdf

然后

htmltopdf myFile.pdf myFile.htm -c -noframes

如果你想查看所有标志的含义,那么只需输入即可

htmltopdf

如果您不在Linux上,那么您可以使用大量工具来实现这一目标。

© www.soinside.com 2019 - 2024. All rights reserved.