我想在一个充满 Word 文档的文件夹上运行一个脚本,该脚本会读取文档并提取图像及其标题(图像正下方的文本)。根据我所做的研究,我认为 pywin32 可能是一个可行的解决方案。我知道如何使用 pywin32 查找字符串并将其拉出,但我需要图像部分的帮助。如何读取 docx 文件并在找到图像时发生事件?感谢您的任何帮助!我正在使用Python 2.7。
可以解压 Docx 文件以提取图像。
在这篇文章中寻找一些灵感如何在 Word 2007 .docx 文件中搜索单词?
您可以使用 python 模块 docx2txt 从 docx 文件中提取文本和图像
我在这里找到了一个解决方案,请检查下面的链接 以序列方式提取的文本,如果首先是文本,则在图像之后获取文本,然后进行 OCR 并以序列方式获取文本。
https://rndcode.blogspot.com/2023/12/exploring-python-unlocking-power-of.html
希望这有帮助。
document =docx.Document(filepath)
for image in document.inline_shapes:
print (image.width, image.height)
试试这个,会有效果的。