我正在使用 python docx 包基本示例来读取表格单元格文本。 该文档为 40MB。然而,即使在分裂时,我发现这种情况也会发生。
` 从 docx 导入文档 进口重新
wordDoc = Document('./mydoc.docx')
for table in wordDoc.tables:
for row in table.rows:
for cell in row.cells:
print(cell.text)
`
该文档包含以下文本“(3.4.2:2) WCS 允许...” 但是,当示例代码输出时,由于某种原因,它会将其转换为此格式
“(:) WCS 允许...”
有谁知道我怎样才能阻止这个?这是文档中的错误还是潜在的问题? 还有其他类似的细胞不存在此问题,但没有导致此问题的模式。
尝试缩小文档以防其大小相关,但仍然发生。
发现这些索引中有一个隐藏链接。我按 ctrl + A 选择整个文档。然后按 CTRL+6 删除所有链接。
然后文档的处理看起来是正确的。