我正在尝试将大的json
文件(大约4G)作为pandas dataframe
加载,但是以下方法不适用于文件> 2G左右。有其他替代方法吗?
data_dir = 'data.json'
my_data = pd.read_json(data_dir, lines = True)
我尝试过ijson
,但不知道如何将其隐藏为dataframe
。
在这种情况下,将大文档加载到内存中可能不是最佳方法。这种JSON大小可能需要您使用其他方法进行解析。尝试改用流解析器。一些选项
https://pypi.org/project/json-stream-parser/
https://pypi.org/project/ijson/
关键是不将整个文档加载到内存中。这类似于XML世界中的SAX解析。
我不是python专家,但是,应该已经有一个不错的库可以为您做到这一点。