是否有一种方法可以在不使用计算功能作为熊猫的情况下获取简单数据帧的值?
df.values
ddf.compute().values
使用计算功能的速度较慢,我必须将速度数据帧转换为json格式,然后我应该获取值。
因为Dask适用于大型数据集,所以对整个数据源执行计算没有意义。
我认为您应该通过遍历分区来生成json文件。
[df.npartitions为您提供分区数。
df.npartitions
您可以使用df.get_partition(n)获得特定的分区(例如n)。
df.get_partition(n)