如何使用Parquet查看器查看大文件

问题描述 投票:0回答:1

enter image description here

我试图打开一个大小为96MB的大型镶木地板文件时出现OutOfMemory Error。

enter image description here

是否有任何可配置选项可以更改JVM参数或任何其他基于流的方法。

我们需要csv文件作为输出。

parquet hadoop-streaming
1个回答
0
投票

无法告诉您如何使特定的查看器工作,但如果您需要CSV输出,您可以尝试使用Python与pandas和pyarrow。以下脚本足够:

import pandas as pd
df = pd.read_parquet('input.parquet')
df.to_csv('out.csv', index=False)

请参阅相关的API文档:

不要忘记首先通过发布pip install pandas pyarrow(或类似的,取决于您的包管理解决方案)来安装pandas和pyarrow。

© www.soinside.com 2019 - 2024. All rights reserved.