基于多个条件过滤行

问题描述 投票:0回答:2

我有以下数据框:

name        date_one        date_two
-----------------------------------------
sue
sue
john    
john        13-06-2019
sally       23-04-2019
sally       23-04-2019      25-04-2019
bob         18-05-2019      14-06-2019
bob         18-05-2019      17-06-2019

数据包含重复的name行。我需要根据以下内容(按优先级顺序)过滤数据:

  1. 对于每个name,请在行中保留最新的date_two。如果name没有任何具有date_two值的行,请转到步骤2
  2. 对于每个name,请在行中保留最新的date_one。如果name没有任何具有date_one值的行,请转到步骤3
  3. 这些names没有任何具有date_onedate_two的行,因此只需保留该name的第一行

以上数据框将被过滤为:

name        date_one        date_two
-----------------------------------------
sue
john        13-06-2019
sally       23-04-2019      25-04-2019
bob         18-05-2019      17-06-2019

这不需要以最高效的方式完成。数据帧只有几千行,只需要执行一次。如果需要通过多个(缓慢的)步骤来完成,那就很好。

python pandas
2个回答
0
投票

似乎您只是在寻找Groupby.max()

df["date_one"] = pd.to_datetime(df["date_one"],format="%d-%m-%Y")
df["date_two"] = pd.to_datetime(df["date_two"],format="%d-%m-%Y")
print (df.groupby("name").max())

#
        date_one   date_two
name
bob   2019-05-18 2019-06-17
john  2019-06-13        NaT
sally 2019-04-24 2019-04-25
sue          NaT        NaT

0
投票

用途:

df['date_one'] = pd.to_datetime(df['date_one'], dayfirst=True)
df['date_two'] = pd.to_datetime(df['date_two'], dayfirst=True)

#rule1
df1 = df.loc[df.groupby('name')['date_two'].idxmax().dropna()]

#rule2
df2 = df.loc[df.groupby('name')['date_one'].idxmax().dropna()]
df2 = df2[~df2['name'].isin(df1['name'])]

#rule3
df3 = df[~df['name'].isin(df1['name'].append(df2['name']))].drop_duplicates('name')

df = pd.concat([df1, df2, df3]).sort_index()
print (df)
    name   date_one   date_two
0    sue        NaT        NaT
3   john 2019-06-13        NaT
5  sally 2019-04-23 2019-04-25
7    bob 2019-05-18 2019-06-17
© www.soinside.com 2019 - 2024. All rights reserved.