我经常使用这个简单的命令将 html 转换为 docx:
pandoc -s 输入.html -o 输出.docx
我想使用相同的方法只转换 html 文件的部分内容。 html 文件由
<body>
标签内的各个部分组成,包括 <table>
、<div>
和 <span>
。我只想转换 <span>
部分的内容。是否有创建模板文件的方法,如果有的话,如何格式化它?
或者有更好的方法来实现这一点吗?
谢谢。
听起来您想保持大部分 HTML 文档不变。在这种情况下,请使用您首选的编程语言中的 HTML 解析器,然后使用 pandoc 进程作为管道将相关片段传递给 pandoc。您需要省略
-s
标志以确保 pandoc 仅生成片段。