列出坐在数据湖中的文件夹中的所有文件

问题描述 投票:1回答:1

我正在尝试获取一个文件夹中所有文件的清单,该文件夹有几个子文件夹,所有这些子文件夹都位于数据湖中。这是我正在测试的代码。

import sys, os
import pandas as pd

mylist = []
root = "/mnt/rawdata/parent/"
path = os.path.join(root, "targetdirectory") 

for path, subdirs, files in os.walk(path):
    for name in files:
        mylist.append(os.path.join(path, name))


df = pd.DataFrame(mylist)
print(df)

我还尝试了此链接中的示例代码:

Python list directory, subdirectory, and files

我正在使用Azure Databricks。我愿意使用Scala来完成这项工作。到目前为止,没有任何事情对我有用。每次,我总是得到一个空的数据框。我相信这已经很接近了,但是我一定缺少一些小东西。有想法吗?

python scala databricks azure-data-lake azure-databricks
1个回答
0
投票

您可以在Knowledge Base中找到可用的Scala示例。优点是,它将为所有分发的子叶运行列表,因此对于较大的目录也将起作用。

另一个选择是使用Databricks文件系统实用程序:

dbutils.fs.ls("path")
© www.soinside.com 2019 - 2024. All rights reserved.