列出坐在数据湖中的文件夹中的所有文件

Question

我正在尝试获取一个文件夹中所有文件的清单，该文件夹有几个子文件夹，所有这些子文件夹都位于数据湖中。这是我正在测试的代码。

import sys, os
import pandas as pd

mylist = []
root = "/mnt/rawdata/parent/"
path = os.path.join(root, "targetdirectory") 

for path, subdirs, files in os.walk(path):
    for name in files:
        mylist.append(os.path.join(path, name))


df = pd.DataFrame(mylist)
print(df)

我还尝试了此链接中的示例代码：

Python list directory, subdirectory, and files

我正在使用Azure Databricks。我愿意使用Scala来完成这项工作。到目前为止，没有任何事情对我有用。每次，我总是得到一个空的数据框。我相信这已经很接近了，但是我一定缺少一些小东西。有想法吗？

Answer 1

您可以在Knowledge Base中找到可用的Scala示例。优点是，它将为所有分发的子叶运行列表，因此对于较大的目录也将起作用。

另一个选择是使用Databricks文件系统实用程序：

dbutils.fs.ls("path")

列出坐在数据湖中的文件夹中的所有文件

问题描述投票：1回答：1

1个回答

最新问题

列出坐在数据湖中的文件夹中的所有文件

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1