我有一个 160MM 行的 csv 数据集,无法直接通过 Pandas 导入(RAM 内存不够)。 我怎样才能从原始数据集中抽取 5% 的随机样本(在本例中,是一个大约 8MM 行的样本)??? 艾米的洞察力值得赞赏... 干杯, 马塞洛
我尝试过使用块,但没有成功。
如果这还不够快,还有另一种方法:
sample = subprocess.check_output(['shuf', '-n', '8000000', 'file.csv'])
它使用 https://man7.org/linux/man-pages/man1/shuf.1.html 这可能比你单独使用 Python 得到的结果更快。