使用Python从word文档中提取图像和文本

问题描述 投票:0回答:5

我想在一个充满 Word 文档的文件夹上运行一个脚本,该脚本会读取文档并提取图像及其标题(图像正下方的文本)。根据我所做的研究,我认为 pywin32 可能是一个可行的解决方案。我知道如何使用 pywin32 查找字符串并将其拉出,但我需要图像部分的帮助。如何读取 docx 文件并在找到图像时发生事件?感谢您的任何帮助!我正在使用Python 2.7。

python image ms-word extract pywin32
5个回答
4
投票

可以解压 Docx 文件以提取图像。


3
投票

在这篇文章中寻找一些灵感如何在 Word 2007 .docx 文件中搜索单词?


2
投票

您可以使用 python 模块 docx2txt 从 docx 文件中提取文本和图像


0
投票

我在这里找到了一个解决方案,请检查下面的链接 以序列方式提取的文本,如果首先是文本,则在图像之后获取文本,然后进行 OCR 并以序列方式获取文本。

https://rndcode.blogspot.com/2023/12/exploring-python-unlocking-power-of.html

希望这有帮助。


-2
投票
document =docx.Document(filepath)
for image in document.inline_shapes:
    print (image.width, image.height)

试试这个,会有效果的。

© www.soinside.com 2019 - 2024. All rights reserved.