在python中循环处理一个大型数据集的最佳方法是什么?

问题描述 投票:0回答:0

我目前正在使用下面的代码来循环处理一个大约20K记录的数据集。我创建了一个生成器,并在for循环中使用它。这花了大约10分钟来完成。有没有一种更有效的方法在python中循环处理大型数据集?

lst_tk = ['caller_id','opened_by','made_sla']

gen_inc = (i for i in df_ir['number'].unique())

for incnum in gen_inc:
    for col in lst_tk:
        if df_ir[df_ir['number']== incnum][col].value_counts().count()>1:
            d_cnt[col]+=1
python loops generator processing-efficiency
© www.soinside.com 2019 - 2024. All rights reserved.