具有值的列的 dask 数据帧错误:2023-01-03T06:58:46.360000+00:19207,同时写入 csv

问题描述 投票:0回答:1

我的 csv 文件包含“完成日期”列,其值格式为

'2023-01-03T06:58:46.360000+00:00'

我认为它卡住了,因为它在日期时间戳之间有“T”

import dask.dataframe as daskDataFrame

colsToKeep=['Email','Content Title','Completion Date','Status']

infile="E://t//1.csv"
outfile="E://t//2.csv"

dataSet = daskDataFrame.read_csv(infile, usecols=colsToKeep)
#print(dataSet.dtypes)
dataSet.to_csv(outfile)

我有一个包含 26 列的 csv 文件,我只想保留这 26 列中的 4 列。 所以我正在阅读 csv,然后将 4 列复制到新的 csv 文件中。

但是在保存“完成日期”列值时失败了。

错误:

ValueError: could not convert string to float: '2023-01-03T06:58:46.360000+00:00'

ValueError: could not convert string to float: '2023-01-03T06:58:46.360000+00:00'

python dataframe dask
1个回答
0
投票

问题似乎是

dask
试图将它们转换为
float
,但失败了。您可以将其指定为
object
类型(
pandas
中的字符串),如下所示:

dataSet = daskDataFrame.read_csv(infile, usecols=colsToKeep, dtype='object')
© www.soinside.com 2019 - 2024. All rights reserved.