读取大文件是否有可能使python处于无尽运行状态?我已经针对python 3.7和3.8进行了测试,并获得了相同的结果(无尽的运行)。您对读取大文件并将其放入数据框有何建议?我是数据初学者挖矿!谢谢。
要测试加载整个输入文件所需的时间,请尝试“分块”阅读,类似:
chunksize = 10 ** 6
for chunk in pd.read_csv('input.csv', chunksize=chunksize):
print(chunk.shape)
当然,此代码并没有做任何必要的使用,但至少您会知道阅读时间。
然后,如果您可以从以下位置得到所需的结果:
相应地更改上述循环的内部。
这种方法cn有用的一个很好的例子是计算多少行符合特定条件。
然后选择使用dask包。如果你不知道,你可能应该阅读一下。这个软件包是为了应对非常大文件。