我将如何从docx文件中提取元数据(例如FileSize,FileModifyDate,FileAccessDate)。
您应使用Python-Docx。 Python-Docx具有您可以使用的方法core_properties
。此方法提供15个元数据属性,例如作者,类别等。请参见下面的代码将所有元数据提取到python字典中-
def getMetaData(doc):
metadata = {}
prop = doc.core_properties
metadata["author"] = prop.author
metadata["category"] = prop.category
metadata["comments"] = prop.comments
metadata["content_status"] = prop.content_status
metadata["created"] = prop.created
metadata["identifier"] = prop.identifier
metadata["keywords"] = prop.keywords
metadata["language"] = prop.language
metadata["modified"] = prop.modified
metadata["subject"] = prop.subject
metadata["title"] = prop.title
metadata["version"] = prop.version
return metadata