Pyspark - 如何将嵌套数组读取为“列-行”或“键-值”

问题描述 投票:0回答:1

我有一个如下所示的json文件,我需要读取它并生成一个包含该人的属性的表。

{
  "person":[
      [
      "name",
      "Guy"
      ],
      [
      "age",
      "25"
      ],
      [
       "height",
       "2.00"
      ]
  ]
}
名字 年龄 高度
盖伊 25 2.00

读取此 json 并输出表格的最简单方法和执行方法是什么?

我正在考虑将列表转换为键值对,但由于我正在处理大量数据,因此它的性能会不佳。

由于数据框中的其他数据,我无法分解它。

arrays json pyspark nested dynamic-arrays
1个回答
0
投票

您可以使用以下命令阅读执行此操作,指定 multiline=True

your_df = spark.read.option("multiLine", "true").json(
    "yourjsonpath.json"
)

上面的问题也已经回答过 如何从嵌套 JSON 结构创建 Spark DataFrame

© www.soinside.com 2019 - 2024. All rights reserved.