如何将 parquet 转换为 json

问题描述 投票:0回答:1

我在 S3 上托管有镶木地板文件,我想下载这些文件并将其转换为 JSON。过去我可以使用 SQL 来使用 select_object_content 将某些文件输出为 JSON。我需要找到一种更快的方法来完成此操作,因为较大的文件会超时。

我尝试过以下方法:

df = pd.read_parquet(s3_location)
df = df.to_json(orient="records")

但是,上述代码的 JSON 输出包含关键路径(hotels.date.hotel_price INSTEAD OFhotels:{date:{hotel_price: 100}}。

有人知道如何做到这一点,使其成为第二种类型的 JSON 吗?

json python-3.x amazon-s3 parquet fastparquet
1个回答
0
投票

这可能为时已晚,但对于遇到同样问题的其他人来说,最简单的方法是在 VS Code 中下载此 parquet-viewer 扩展,您将能够以 JSON 形式预览数据。

链接到扩展以供参考 https://marketplace.visualstudio.com/items?itemName=dvirtz.parquet-viewer

© www.soinside.com 2019 - 2024. All rights reserved.