如何从docx文件中提取元数据-Python

问题描述 投票:0回答:1

我将如何从docx文件中提取元数据(例如FileSize,FileModifyDate,FileAccessDate)。

python parsing metadata docx
1个回答
0
投票

您应使用Python-Docx。 Python-Docx具有您可以使用的方法core_properties。此方法提供15个元数据属性,例如作者,类别等。请参见下面的代码将所有元数据提取到python字典中-

def getMetaData(doc):
    metadata = {}
    prop = doc.core_properties
    metadata["author"] = prop.author
    metadata["category"] = prop.category
    metadata["comments"] = prop.comments
    metadata["content_status"] = prop.content_status
    metadata["created"] = prop.created
    metadata["identifier"] = prop.identifier
    metadata["keywords"] = prop.keywords
    metadata["language"] = prop.language
    metadata["modified"] = prop.modified
    metadata["subject"] = prop.subject
    metadata["title"] = prop.title
    metadata["version"] = prop.version
    return metadata
© www.soinside.com 2019 - 2024. All rights reserved.