从火花中读取镶木地板文件

Question

对于用spark编写的实木复合地板文件（没有任何分区），其方向看起来像：

%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS

[尝试通过熊猫阅读时：

pd.read_parquet('foo.parquet')

一切正常。

但是，使用dask时失败：

dd.read_parquet('foo.parquet')
 [Errno 17] File exists: 'foo.parquet/_SUCCESS'

我需要更改什么，以便dask能够成功读取数据？

Answer 1

事实证明熊猫正在使用pyarrow。切换到该后端进行操作时：

 dd.read_parquet('foo.parquet', engine='pyarrow')

它的工作原理与预期一致

从火花中读取镶木地板文件

问题描述投票：0回答：1

1个回答

最新问题

从火花中读取镶木地板文件

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1