加载大型Json文件的替代方法

问题描述 投票:2回答:1

我正在尝试将大的json文件(大约4G)作为pandas dataframe加载,但是以下方法不适用于文件> 2G左右。有其他替代方法吗?

data_dir = 'data.json' my_data = pd.read_json(data_dir, lines = True)

我尝试过ijson,但不知道如何将其隐藏为dataframe

python json pandas large-files ijson
1个回答
1
投票

在这种情况下,将大文档加载到内存中可能不是最佳方法。这种JSON大小可能需要您使用其他方法进行解析。尝试改用流解析器。一些选项

https://pypi.org/project/json-stream-parser/

https://pypi.org/project/ijson/

关键是不将整个文档加载到内存中。这类似于XML世界中的SAX解析。

我不是python专家,但是,应该已经有一个不错的库可以为您做到这一点。

© www.soinside.com 2019 - 2024. All rights reserved.