将字典文件作为pyspark数据框读取

Question

我正在处理的问题是，我有一个（或多个）文件装满了字典，然后我试图将其放入数据框。输入文件可能如下所示：

{"A":"value1", "B":"value2"}
{"A":"value2", "B":"value3"}
{"A":"value4", "B":"value5", "C":"value6"}

我正在处理的问题：

在上面的示例中，期望的结果将是：

A          B          C
value1     value2     null
value2     value3     null
value4     value5     value6

到目前为止我尝试过的：

spark_sql_context.read.json(path_to_file)

这仅读取第一个字典，并返回一行的pyspark数据帧。我也尝试将其读取为文本文件：

data_rdd = spark_context.textFile(path_to_file)

问题是我不知道：

如果能为我指出解决此问题的方法或解决方案，我将不胜感激。

我正在处理的问题是，我有一个（或多个）文件装满了字典，然后我试图将其放入数据框。输入文件可能如下所示：{“ A”：“ ...

Answer 1

您可以将其读取为文本，然后除以}{以获取JSON对象数组。为此，我们首先将}{替换为};{，然后将其拆分为;。