这是我第一次处理大型数据集(~5gigs),我担心将数据加载到 Pandas 中。我的笔记本电脑上只有大约 4 GB 的可用内存,我担心如果我将整个文件读入 pandas,我的笔记本电脑会崩溃。
如果我将 5 GB 的 csv 文件加载到 pandas 中,它会占用 5 GB 内存吗?会需要更多吗?
您可以查看有关 this issues 的更多信息,但您可以通过使用尽可能低的 dtypes 加载该 csv 来减少 RAM 的some。
这个问题还建议了一些有趣的方法来向下转换你的数据类型,在某些情况下减少大约 50% 的 RAM