我正在尝试获取一个文件夹中所有文件的清单,该文件夹有几个子文件夹,所有这些子文件夹都位于数据湖中。这是我正在测试的代码。
import sys, os
import pandas as pd
mylist = []
root = "/mnt/rawdata/parent/"
path = os.path.join(root, "targetdirectory")
for path, subdirs, files in os.walk(path):
for name in files:
mylist.append(os.path.join(path, name))
df = pd.DataFrame(mylist)
print(df)
我还尝试了此链接中的示例代码:
Python list directory, subdirectory, and files
我正在使用Azure Databricks。我愿意使用Scala来完成这项工作。到目前为止,没有任何事情对我有用。每次,我总是得到一个空的数据框。我相信这已经很接近了,但是我一定缺少一些小东西。有想法吗?
您可以在Knowledge Base中找到可用的Scala示例。优点是,它将为所有分发的子叶运行列表,因此对于较大的目录也将起作用。
另一个选择是使用Databricks文件系统实用程序:
dbutils.fs.ls("path")