如何将 parquet 转换为 json

Question

我在 S3 上托管有镶木地板文件，我想下载这些文件并将其转换为 JSON。过去我可以使用 SQL 来使用 select_object_content 将某些文件输出为 JSON。我需要找到一种更快的方法来完成此操作，因为较大的文件会超时。

我尝试过以下方法：

df = pd.read_parquet(s3_location)
df = df.to_json(orient="records")

但是，上述代码的 JSON 输出包含关键路径（hotels.date.hotel_price INSTEAD OFhotels:{date:{hotel_price: 100}}。

有人知道如何做到这一点，使其成为第二种类型的 JSON 吗？

Answer 1

这可能为时已晚，但对于遇到同样问题的其他人来说，最简单的方法是在 VS Code 中下载此 parquet-viewer 扩展，您将能够以 JSON 形式预览数据。