具有值的列的 dask 数据帧错误：2023-01-03T06:58:46.360000+00:19207，同时写入 csv

Question

我的 csv 文件包含“完成日期”列，其值格式为

'2023-01-03T06:58:46.360000+00:00'

我认为它卡住了，因为它在日期时间戳之间有“T”

import dask.dataframe as daskDataFrame

colsToKeep=['Email','Content Title','Completion Date','Status']

infile="E://t//1.csv"
outfile="E://t//2.csv"

dataSet = daskDataFrame.read_csv(infile, usecols=colsToKeep)
#print(dataSet.dtypes)
dataSet.to_csv(outfile)

我有一个包含 26 列的 csv 文件，我只想保留这 26 列中的 4 列。所以我正在阅读 csv，然后将 4 列复制到新的 csv 文件中。

但是在保存“完成日期”列值时失败了。

错误：

Answer 1

问题似乎是

dask

试图将它们转换为

float

，但失败了。您可以将其指定为

object

类型（

pandas

中的字符串），如下所示：

dataSet = daskDataFrame.read_csv(infile, usecols=colsToKeep, dtype='object')

具有值的列的 dask 数据帧错误：2023-01-03T06:58:46.360000+00:19207，同时写入 csv

问题描述投票：0回答：1

1个回答

最新问题

具有值的列的 dask 数据帧错误：2023-01-03T06:58:46.360000+00:19207，同时写入 csv

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1