Pandoc 将 docx 转换为嵌入图像的 Markdown

问题描述 投票:0回答:3

将 .docx 文件转换为 Markdown 时,不会从 docx 存档中提取嵌入图像,但输出包含

![](media/image1.png){width="6.291666666666667in"
height="3.1083333333333334in"}

是否需要设置参数才能提取嵌入的图片?

pandoc
3个回答
119
投票
pandoc --extract-media ./myMediaFolder input.docx -o output.md

摘自手册

--extract-media=DIR
将源文档中包含或链接的图像和其他媒体提取到路径 DIR,并根据需要创建它,并调整文档中的图像引用,使它们指向提取的文件。根据需要下载媒体、从文件系统读取媒体或从二进制容器(例如 docx)中提取媒体。如果原始文件路径是不包含
..
的相对路径,则使用原始文件路径。否则,文件名是根据内容的 SHA1 哈希值构造的。


25
投票

参考gridtrak的评论以及不必要的深层目录结构的问题(例如

media/media/image2.jpeg
),使用当前目录作为路径DIR,然后在当前目录中创建一个文件夹
media
(例如
media/image2.jpeg
):

pandoc --extract-media=. input.docx -o output.md

0
投票

您可以尝试“--embed-resources”。
https://pandoc.org/MANUAL.html#option--embed-resources[

块引用 --嵌入资源[=true|false] 使用 data: URI 合并链接脚本、样式表、图像和视频的内容,生成没有外部依赖项的独立 HTML 文件。生成的文件应该是“独立的”,即它不需要外部文件,也不需要网络访问即可由浏览器正确显示。此选项仅适用于 HTML 输出格式,包括 html4、html5、html+lhs、html5+lhs、s5、slidy、slideous、dzslides 和 Revealjs。将下载绝对 URL 处的脚本、图像和样式表;相对于相对 URL 的内容将相对于工作目录(如果第一个源文件是本地)或相对于基本 URL(如果第一个源文件是远程)进行查找。具有 data-external="1" 属性的元素将被保留;它们链接到的文档不会合并到该文档中。限制:无法合并通过JavaScript动态加载的资源;因此,使用 --mathjax 时可能会丢失字体,并且某些高级功能(例如缩放或演讲者注释)可能无法在离线“独立”reveal.js 幻灯片放映中工作。

© www.soinside.com 2019 - 2024. All rights reserved.