从 JSON ADF 中删除元数据属性

问题描述 投票:0回答:1

我在 ADLS 中有 json 文件,想要从 json 文件中删除元数据属性,并使用 ADF 管道或使用 pyspark dataframe 将其转换为镶木地板。该数据的示例如下

[
  {
    "metadata": {
      "pageNumber": 1,
      "totalPages": 3,
      "recordCount": 1000,
      "totalRecords": 2097
    },
    "records": [
      {
        "doctor_id": "3678356",
        "doctor_name": "AAasIasM asdas",
        "center_id": "2",
        "speciality": "Homeopathy",
        "degree": null,
        "is_active": "Yes",
        "license_no": "DH1A-P-0asda17",
        "usertype": "EXTERNAL USER",
        "total_count": "2097"
      }
    ]
  }
]
json pyspark azure-data-factory azure-databricks parquet
1个回答
0
投票

为了使用 ADF 从 JSON 文件中删除元数据,您可以使用 ADF 中的数据流活动。以下是执行此操作的步骤:

  1. 将源转换与 JSON 文件作为数据集。在 JSON 设置中,选择
    Array of documents
    作为文档形式。

  1. 然后,进行 Flatten 变换 并展开 records 数组。单击
    + Add Mapping
    添加基于规则的映射,并提供如下图所示的映射。

展平变换的输出将类似于下图。

  1. 以 Parquet 文件作为数据集进行接收器转换。您可以通过在文件名选项中选择该选项并在优化选项卡中选择
    set single partition
    将数据输出到单个文件。

© www.soinside.com 2019 - 2024. All rights reserved.