如何使用Dask使用正则表达式删除行?

问题描述 投票:0回答:1

有没有办法在dask数据帧上使用正则表达式条件删除行?我有一个大约有1亿行的dask数据帧,我想在处理之前删除B列中包含“海洋”的行。有办法实现吗?

这就是数据框的样子:

df = pd.DataFrame({
"A":[34,12,78,84, 96], 
"B":['land', '', 'human', 'seagull by the ocean', 'running fox']
})
patternDel = '^.*THE OCEAN.*$'
filter = df['B'].str.contains(patternDel)
df = df[~filter]

但这似乎不适用于我的情况。

仅供参考:我不能在这里使用熊猫,因为数据不适合内存。

python python-3.x pandas dask
1个回答
0
投票

您可以简单地使用pandas库提供的数据帧的drop函数,而不是使您的实现复杂化。请参阅以下链接以了解用法。 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html

© www.soinside.com 2019 - 2024. All rights reserved.