python不断运行以读取海量数据文件

问题描述 投票:0回答:1

读取大文件是否有可能使python处于无尽运行状态?我已经针对python 3.7和3.8进行了测试,并获得了相同的结果(无尽的运行)。您对读取大文件并将其放入数据框有何建议?我是数据初学者挖矿!谢谢。

python pandas dataframe data-mining apriori
1个回答
0
投票

要测试加载整个输入文件所需的时间,请尝试“分块”阅读,类似:

chunksize = 10 ** 6
for chunk in pd.read_csv('input.csv', chunksize=chunksize):
    print(chunk.shape)

当然,此代码并没有做任何必要的使用,但至少您会知道阅读时间。

然后,如果您可以从以下位置得到所需的结果:

  • 每个块的单独处理,
  • 上述部分结果的汇总,

相应地更改上述循环的内部。

这种方法cn有用的一个很好的例子是计算多少行符合特定条件。

然后选择使用dask包。如果你不知道,你可能应该阅读一下。这个软件包是为了应对非常大文件。

© www.soinside.com 2019 - 2024. All rights reserved.