为什么我的 Glue Crawler 排除模式不适用?

问题描述 投票:0回答:1

我知道以前已经有人问过这个问题了。但我花了几个小时试图让它发挥作用。

我的目录结构如下:

- datalake
--- datasets
----- foo
------- 00001.json
------- 00002.json
------- latest.json
----- bar
------- 00001.json
------- latest.json

我的包含路径看起来像

s3:<bucket_name>/datalake/datasets/

我想排除那些不是

latest.json
s

的东西

天底下的一切我都试过了。

**0*
**/0**
*/0*
*0*
**0**

还有许多其他人。

我的爬虫毫无失败地对每个 .json 进行编目。

我正在检查 Athena 的爬行结果。

我的排除模式真的错了吗?或者我是否以错误的方式思考整件事并且我的模式无关紧要?

amazon-web-services aws-glue glob
1个回答
0
投票

您可以尝试使用

**/*[!latest.json]
作为排除模式吗?

© www.soinside.com 2019 - 2024. All rights reserved.