将月份的间隔相对于其他列的值进行划分

Question

问题：我有一个数据框记录了一段时间内客户的状态。对于每个客户（组），我想根据他们在那个时期的状态将时间间隔分为“开始”和“完成”。

例如，我有这个数据框：

df = pd.DataFrame({'Group': ['group1', 'group1', 'group1', 'group1', 'group1', 'group1', 'group1', 'group1',
                    'group2', 'group2', 'group2', 'group2', 'group2', 'group2', 'group2', 'group2', 'group3'],
               'Month': ['2019-05', '2019-06', '2019-07', '2019-08', '2019-09', '2019-10', '2019-11', '2019-12',
                    '2019-04', '2019-05', '2019-06', '2019-07', '2019-08', '2019-09', '2019-10', '2019-11', '2019-12'],
               'Status': ['Passive', 'Passive', 'Passive', 'Active', 'Active', 'Active', 'Passive', 'Passive',
                    'Active', 'Active', 'Passive', 'Passive', 'Passive', 'Active', 'Active', 'Active', 'Active']})

我想将其转移到此结构中：

df_new = pd.DataFrame({'Group': ['group1', 'group1', 'group1', 'group2', 'group2', 'group2', 'group3'],
                   'From': ['2019-05', '2019-08', '2019-11', '2019-04', '2019-06', '2019-09', '2019-12'],
                   'To': ['2019-07', '2019-10', '2019-12', '2019-05', '2019-08', '2019-11', '2019-12'],
                   'Status': ['Passive', 'Active', 'Passive', 'Active', 'Passive', 'Active', 'Active']})

没有“ Status”变量，使用groupby和aggfunc在每个组中查找“最小”和“最大”周期将非常简单。但是，我不知道如何考虑“状态”变量。问题是这里的状态间隔不是连续的，因此，如果我按“状态”分组，则我将始终只有两个状态组（主动和被动），并且间隔是混合的。

我正在考虑将数据帧分为2个数据帧：一个状态为“活动”，另一个状态为“被动”；分别处理这两个问题，然后再次合并在一起。但是这种方法似乎效率不高:(而且，由于一个客户可以多次主动和被动，因此在每个状态组中划分时间间隔非常棘手。

希望有人在这里有更好的解决方案？在先进的感谢：）

Answer 1

groupby和连续的groupby的帮助器系列使用Group。使用命名的聚合，将Status，min用作“从”和“至”，将max用作“状态”：

last

[out]

s = df['Status'].ne(df['Status'].shift()).cumsum()

df_new = (df.groupby(['Group', s])
          .agg(From=('Month', 'min'),
               To=('Month', 'max'),
               Status=('Status', 'last'))
           .reset_index(level=0))

将月份的间隔相对于其他列的值进行划分

问题描述投票：1回答：1

1个回答

最新问题

将月份的间隔相对于其他列的值进行划分

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1