我目前正在使用下面的代码来循环处理一个大约20K记录的数据集。我创建了一个生成器,并在for循环中使用它。这花了大约10分钟来完成。有没有一种更有效的方法在python中循环处理大型数据集?
lst_tk = ['caller_id','opened_by','made_sla']
gen_inc = (i for i in df_ir['number'].unique())
for incnum in gen_inc:
for col in lst_tk:
if df_ir[df_ir['number']== incnum][col].value_counts().count()>1:
d_cnt[col]+=1