我已经处理这个问题一个星期了。我使用的命令是
from dask import dataframe as ddf
ddf.read_parquet("http://IP:port/webhdfs/v1/user/...")
我得到了无效的parquet魔法,但是df.read_parquet在 "webhdfs:/"的情况下是可以的。
我希望ddf.read_parquet能在http下工作,因为我想在dask-ssh集群中为没有hdfs访问的工人使用它。
虽然评论中已经回答了这个问题的部分内容,但我想我还是要补充一些信息作为答案。
fsspec
)作为后端文件系统;但如果要获得文件中的分区,你需要获得该文件的大小,如果要解析globs,你需要能够获得一个链接列表,而这两者都不一定由任何给定的服务器提供"hdfs://"
). 然而,kerberos安全的webHDFS可能会很棘手,这取决于安全设置的方式。