使用 Databricks 文件到达触发器跟踪嵌套文件夹中的文件到达情况

问题描述 投票:0回答:1

我目前正在使用 Databricks 探索文件到达触发器,但我的数据被组织到代表各种源的嵌套文件夹中。例如:

来源1 |-- 文件1 |-- 文件.csv |-- 文件2 |-- 文件.csv

我的目标是确定嵌套文件夹结构中文件(例如 file.csv)到达的具体位置,并捕获文件名。这使我能够通过对多个文件使用单个作业来简化我的工作流程。

有人可以提供有关如何在 Databricks 中有效实现这一目标的指导吗?

谢谢!

我可以一次访问单个文件,我想跟踪多个子文件夹,并且需要知道文件已到达哪个文件夹及其文件名。

triggers databricks azure-databricks
1个回答
0
投票

您可以使用文件到达触发器本身来在新文件到达父文件夹下时获取通知。

文件到达触发器可以配置为监视 Unity Catalog 外部位置或卷的根,或者外部位置或卷的子路径。例如,对于 Unity Catalog 根卷 /Volumes/mycatalog/myschema/myvolume/,以下是文件到达触发器的有效路径:

/Volumes/mycatalog/myschema/myvolume/  
/Volumes/mycatalog/myschema/myvolume/mydirectory/  

这将有助于在父文件夹中的任何文件到达时触发通知。

为了跟踪文件路径,您可以在读取文件时在数据框中添加

_metadata
列。

有关更多详细信息,请查看文档](https://docs.gcp.databricks.com/en/ingestion/file-metadata-column.html#:~:text=The%20_metadata%20column%20is%20a% 20hidden%20column%2C%20and、%20data%20source%2C%20and%20not%20the%20file%20metadata。)“https://docs.gcp.databricks.com/en/ingestion/file-metadata-column .html#:~:text=%20_metadata%20column%20是%20a%20hidden%20column%2c%20并且%20data%20source%2c%20和%20不是%20%20file%20元数据。)")

© www.soinside.com 2019 - 2024. All rights reserved.