Pyspark FileSystem fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（path））仅返回第一个子目录

问题描述投票：1回答：1

我想在Pyspark中递归地遍历给定的hdfs路径，而不使用hadoop fs -ls [path]。我尝试了建议的解决方案here，但发现listStatus()仅返回给定路径中第一个子目录的状态。根据this documentation，listStatus应该返回“如果路径是目录，则给定路径中文件/目录的状态”。我想念什么？

我正在使用Hadoop 2.9.2，Spark 2.3.2和Python 2.7。

pyspark hdfs

1个回答

0
投票

我无法完全重新创建场景，但是我认为这与以下事实有关：如果路径不是目录，则该路径上的listStatus()将返回长度为1的列表，其中仅包含路径本身。

最新问题

Flutter - 如何从布局填充中排除小部件（对称水平）？
Dataverse 的 Azure Synapse Link - 来自 F&O 的表 - 仅可通过 Delta Lake 的 Spark 池使用？
这个 _popen / select 示例有什么问题？
Javascript 运行时剪辑路径更改
将 System.String 转换为 System.Guid
我可以解析多部分/混合响应而不必先将其转换为字符串吗？
通过以太网端口将图像文件从客户端传输到服务器
C# .NET Core 数据流模式单元测试不等待操作完成
因触发器执行导致登录失败
在ssis脚本组件中添加第三方dll引用
通过 Django 中的 celery Worker 停止当前正在运行的任务
如何在谷歌文本转语音中使用拼音或音素发音？
在多个线程之间共享套接字描述符
格式字符串——左右填充双
如何取消（终止）celery中正在运行的任务？已经尝试使用“AsyncResult(task_id).revoke(terminate=True)”，但它不起作用
Selenium Java：无法访问 iframe 中的元素
如何从 trpc.authCallback.useQuery() 获取成功的身份验证回调消息？（反应查询 v5 2024）
在 netlify 上托管并使用 cpanel 作为自定义邮件服务器
用当前月份以外的其他月份初始化dayGridMonth
Remix React 返回 json 并重定向

Pyspark FileSystem fs.listStatus（sc._jvm.org.apache.hadoop.fs.Path（path））仅返回第一个子目录

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1