对于用spark编写的实木复合地板文件(没有任何分区),其方向看起来像:
%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS
[尝试通过熊猫阅读时:
pd.read_parquet('foo.parquet')
一切正常。
但是,使用dask时失败:
dd.read_parquet('foo.parquet')
[Errno 17] File exists: 'foo.parquet/_SUCCESS'
我需要更改什么,以便dask能够成功读取数据?
事实证明熊猫正在使用pyarrow
。切换到该后端进行操作时:
dd.read_parquet('foo.parquet', engine='pyarrow')
它的工作原理与预期一致