通过RDD获取路径读取中的文件数

问题描述 投票:-3回答:1

我正在读取RDD中的路径。我知道在Java中有几种方法可以读取一个文件夹中的文件数量。但是有没有办法获取该文件中存在的文件数量。

apache-spark rdd
1个回答
0
投票

使用spark计算目录中文件数量的快速方法是使用binaryFiles。此功能为每个文件创建一个记录,并将每个文件名映射到DataStream

// This will just count the files, without reading them
sc.binaryFiles("path").count

如果要读取文件的内容,请查看wholeTextFiles

© www.soinside.com 2019 - 2024. All rights reserved.