Pandas - 更改少于 n 个后续值相等的行

问题描述 投票:0回答:2

我有以下数据框:

df = pd.DataFrame({"col":[0,0,1,1,1,1,0,0,1,1,0,0,1,1,1,0,1,1,1,1,0,0,0]})

现在我想将所有行设置为零,其中“连续”出现少于四个

1
,即我希望得到以下结果 DataFrame:

df = pd.DataFrame({"col":[0,0,1,1,1,1,0,0,0,0,0,0,0,0,0,0,1,1,1,1,0,0,0]})

我无法找到一种方法来很好地实现这一点......

python pandas dataframe row
2个回答
2
投票

尝试使用

groupby
where

streaks = df.groupby(df["col"].ne(df["col"].shift()).cumsum()).transform("sum")
output = df.where(streaks.ge(4), 0)

>>> output
    col
0     0
1     0
2     1
3     1
4     1
5     1
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    1
17    1
18    1
19    1
20    0
21    0
22    0

2
投票

我们能做到

df.loc[df.groupby(df.col.eq(0).cumsum()).transform('count')['col']<5,'col'] = 0
df
Out[77]: 
    col
0     0
1     0
2     1
3     1
4     1
5     1
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    1
17    1
18    1
19    1
20    0
21    0
22    0
最新问题
© www.soinside.com 2019 - 2024. All rights reserved.