从火花中读取镶木地板文件

问题描述 投票:0回答:1

对于用spark编写的实木复合地板文件(没有任何分区),其方向看起来像:

%ls foo.parquet
part-00017-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00018-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
part-00019-c17ab661-2564-428e-8233-e7a9951fb012-c000.gz.parquet
_SUCCESS

[尝试通过熊猫阅读时:

pd.read_parquet('foo.parquet')

一切正常。

但是,使用dask时失败:

dd.read_parquet('foo.parquet')
 [Errno 17] File exists: 'foo.parquet/_SUCCESS'

我需要更改什么,以便dask能够成功读取数据?

apache-spark dask parquet dask-distributed
1个回答
0
投票

事实证明熊猫正在使用pyarrow。切换到该后端进行操作时:

 dd.read_parquet('foo.parquet', engine='pyarrow')

它的工作原理与预期一致

© www.soinside.com 2019 - 2024. All rights reserved.