有没有办法在dask数据帧上使用正则表达式条件删除行?我有一个大约有1亿行的dask数据帧,我想在处理之前删除B列中包含“海洋”的行。有办法实现吗?
这就是数据框的样子:
df = pd.DataFrame({
"A":[34,12,78,84, 96],
"B":['land', '', 'human', 'seagull by the ocean', 'running fox']
})
patternDel = '^.*THE OCEAN.*$'
filter = df['B'].str.contains(patternDel)
df = df[~filter]
但这似乎不适用于我的情况。
仅供参考:我不能在这里使用熊猫,因为数据不适合内存。
您可以简单地使用pandas库提供的数据帧的drop函数,而不是使您的实现复杂化。请参阅以下链接以了解用法。 https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.drop.html