Pandas根据前n行的条件过滤数据帧

Question

我有一个形状的数据框[600 000,19]。我想根据一个条件过滤前100 000行，根据另一个条件过滤下30万行，最后一行过滤第三个条件。我想知道如何做到这一点。

目前，我将数据框分成3个段并应用它们各自的条件。然后，我重新连接数据框。有没有更好的办法？

示例：根据任何小于5的值过滤前100 000行。对于第二个300 000行，我不希望任何大于40的值等。

Answer 1

您可以尝试以下方法：

import pandas as pd

sample = pd.DataFrame({'x' : pd.np.arange(100),
                       'colname': pd.np.arange(100)})
conditions = [('index < 5', 'colname < 3'), 
              ('index > 50', 'index < 100', 'colname < 55')]
sample.query('|'.join(map(lambda x: '&'.join(x), conditions)))

Answer 2

方法是使用pd.concat的数据框索引切片来构建完整的布尔系列：

import numpy as np
import pandas as pd
np.random.seed(0)
df=pd.DataFrame(np.random.randint(0,50,60))

df[pd.concat([df.iloc[:10] > 10, df[11:40] < 30, df[41:] % 2 == 0])]

前10个记录过滤少于10个，接下来30个值过滤大于30，最后一个值检查偶数。

然后，您可以使用dropna删除所有NaN值

输出：

Pandas根据前n行的条件过滤数据帧

问题描述投票：4回答：2

2个回答

最新问题

Pandas根据前n行的条件过滤数据帧

问题描述 投票：4回答：2

2个回答

最新问题

问题描述投票：4回答：2