我有一个.xlsb文件,我想用pandas和analyze。我找到了如何使用pyxlsb打开文件并创建另一个数据集。然而,现在的问题是时间格式已经变成不同的数字格式(例如41256)。
我目前使用的代码是:
dataset = []
with open_xlsb(file) as wb: #opening an xlsb file workbook
with wb.get_sheet(1) as sheet1:
for row in sheet1.rows():
dataset.append([item.v for item in row])
dataset= pd.DataFrame(dataset[1:], columns=dataset[0])
我已经尝试过convert_date,如下所示:
convert_date(dataset)
我也尝试过to_datetime函数,但不确定我是否正确使用它。作为参考,我使用的数据集具有多个列和行的日期,因此我正在寻找一种方法将所有数据转换为正确的格式,同时忽略任何错误。
编辑:所以我没有一个带有“Date”的列,而是我有多个列,例如StartDate,EndDate,Last Updated和其他一些列。我想看到的结果是,如果我去一个列,例如dataset.columns ['StartDate'],我想获得一个日期值,例如15/03/2019,而不是42156。
任何帮助将非常感激!
假设您的日期列是“日期”,命令将是这样的:
dataset['Date'] = pd.to_datetime(dataset['Date'], format='%m/%d/%Y')