在python中循环处理一个大型数据集的最佳方法是什么？

问题描述投票：0回答：0

我目前正在使用下面的代码来循环处理一个大约20K记录的数据集。我创建了一个生成器，并在for循环中使用它。这花了大约10分钟来完成。有没有一种更有效的方法在python中循环处理大型数据集？

lst_tk = ['caller_id','opened_by','made_sla']

gen_inc = (i for i in df_ir['number'].unique())

for incnum in gen_inc:
    for col in lst_tk:
        if df_ir[df_ir['number']== incnum][col].value_counts().count()>1:
            d_cnt[col]+=1

python loops generator processing-efficiency

最新问题

nlminb 中的收敛错误代码——存储在哪里？
从 PowerShell 打开 Notepad++
在适用于多个用户的 Power BI 中连接数据源
如何查看移动设备是否已注册
Dymos：将 ODE 拆分为两个组件时恢复失败
如何使用unittest并行执行Selenium Python测试
Excel中有没有函数可以在公式中输入变量数字？
Key_F13 是哪个？
在Python中，什么表达式相当于`0x1.0p-53`？
在新的 nx 工作区上运行 lint 和 jest 测试时出现问题
为什么bash解释为“ " 仅在交互式 shell 中作为换行符，而不是在执行 shell 脚本时作为换行符？
最小 API 需要在输入模型上使用 TryParse()，尽管有 ModelBinder
如何获取CPU架构，例如Mac/M1/英特尔？
登录 Symfony Monolog Slackwebhookhandler 时出现问题
React 上下文值总是返回未定义
c++ mac/m1/intel 如何获取cpu架构？
gunicorn、Flask 和 PyMongo 间歇性超时失败
我删除了旧版本的JavaFX并下载了新版本，在命令行中它没有显示源文件
如何将 Azure 函数应用程序中的文件压缩到本地 c:\ 驱动器？
.laravel 中的 Gitignore 问题

在python中循环处理一个大型数据集的最佳方法是什么？

问题描述 投票：0回答：0

最新问题

问题描述投票：0回答：0