我在 S3 上托管有镶木地板文件,我想下载这些文件并将其转换为 JSON。过去我可以使用 SQL 来使用 select_object_content 将某些文件输出为 JSON。我需要找到一种更快的方法来完成此操作,因为较大的文件会超时。
我尝试过以下方法:
df = pd.read_parquet(s3_location)
df = df.to_json(orient="records")
但是,上述代码的 JSON 输出包含关键路径(hotels.date.hotel_price INSTEAD OFhotels:{date:{hotel_price: 100}}。
有人知道如何做到这一点,使其成为第二种类型的 JSON 吗?
这可能为时已晚,但对于遇到同样问题的其他人来说,最简单的方法是在 VS Code 中下载此 parquet-viewer 扩展,您将能够以 JSON 形式预览数据。
链接到扩展以供参考 https://marketplace.visualstudio.com/items?itemName=dvirtz.parquet-viewer