PHP 可以轻松准确地解析哪些文档类型? (.docx、.odt、.rtf、.pdf、.txt、.html、.epub)

问题描述 投票:0回答:1

我想创建一个工具,我可以在其中轻松地将文章(文本、图像、表格)上传到从 Google 文档或 Word 导出的文件夹中。然后使用 PHP 正确解释和显示文章在 Google 文档或 Word 中的显示效果。

Google 文档提供多种导出格式:

  • .docx
  • .odt
  • .rtf
  • .pdf
  • .txt
    (忽略)
  • .html
  • .epub
    (忽略)

我一直在考虑

.html
作为这方面的领跑者,但我不确定这是否是值得关注的正确格式。

我还想考虑哪种格式最容易转换,以防我想建立输入多种格式的能力。例如,如果

.pdf
.rtf
.doc
都可以使用 PHP 轻松转换为
.html
,然后轻松解析以显示为
.html
,将使
.html
成为最佳选择。

我的问题是:

  1. 哪个 PHP 库在解释这些文件格式中的任何一种(最常用或标准做法)方面最有效。我想正确地捕捉表格、图像和列表。
  2. 他们的好处/缺点是什么
  3. 使用PHP最容易转换成哪些格式

注意:我不考虑

.txt
.epub
最有可能因为它们不丰富或不常用于详细文章。

php html pdf docx rtf
1个回答
0
投票

Markdown 基本上是最好的文章格式。它还将产生最一致的结果。它比您提到的其他格式更受限制,但非常一致。

我是一个狂热的博客作者,我使用黑曜石来创作我所有的降价。它需要基本的 markdown 语法知识,这是一个非常浅的学习曲线。 Obsidian 的好处在于,它会在输入一行 markdown 后立即呈现预览。

您也可以使用所见即所得的 markdown 编辑器,许多无头 CMS 提供商提供内置的 markdown 编辑器作为内容类型的选项。

我个人通过创建自己的自定义标签克服了 markdown 的局限性。我使用 Next.js 和 Rehype 来解析我的降价,并且能够定义自定义标签,这样我就可以将组件放置在页面上我想要的位置。

对于 PHP,您可能需要查看 PHP Markdown 包。

© www.soinside.com 2019 - 2024. All rights reserved.