我使用glob函数glob在常规Python下获取目录/文件名。
例如:
glob.glob("/dbfs/mnt/.../*/A*.txt")
但是,在DBFS下刚刚意识到,完整路径名以/ mnt开头。但是在Pyspark下有没有办法像使用glob来获取文件目录/名称列表?
谢谢,
如果只想获取目录/名称列表,则只能在Python中完成。Pyspark可以处理目录/名称列表sc.textFile("/dbfs/mnt/.../*/A*.txt")
,但不能返回它。
Pyspark是一个处理引擎,而不是文件系统任务的框架。