胶水作业-使用create_dynamic_frame.from_options获得s3个子文件夹

问题描述 投票:1回答:1

我正在创建一个AWS Glue ETL作业,但是在文件检索方面遇到了一些障碍。

似乎以下代码仅获取根文件夹2017中的文件,而不再获取。有没有办法在其中包含所有子文件夹和文件?

dyf = glueContext.create_dynamic_frame.from_options(
    's3',
    {"paths": [
        's3://bucket/2017/'
        ]},
    "json",
    transformation_ctx = "dyf")

python amazon-web-services apache-spark pyspark aws-glue
1个回答
0
投票

找到了这个问题的解决方案,看起来字典接受了更多的参数,我需要的是“递归”。您也可以使用“排除”排除某些模式。

来源https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-etl-connect.html#aws-glue-programming-etl-connect-s3

dyf = glueContext.create_dynamic_frame.from_options(
    's3',
    {
        "paths": [
            's3://bucket/2017/'
        ],
        "recurse" : True
    },
    "json",
    transformation_ctx = "dyf")

© www.soinside.com 2019 - 2024. All rights reserved.