加载大型Json文件的替代方法

我正在尝试将大的json文件（大约4G）作为pandas dataframe加载，但是以下方法不适用于文件> 2G左右。有其他替代方法吗？

data_dir = 'data.json' my_data = pd.read_json(data_dir, lines = True)

我尝试过ijson，但不知道如何将其隐藏为dataframe。

python json pandas large-files ijson

1
投票

在这种情况下，将大文档加载到内存中可能不是最佳方法。这种JSON大小可能需要您使用其他方法进行解析。尝试改用流解析器。一些选项

关键是不将整个文档加载到内存中。这类似于XML世界中的SAX解析。

我不是python专家，但是，应该已经有一个不错的库可以为您做到这一点。