填充DataFrame MultiIndex级别1中的间隙,每个级别0的填充方式不同

问题描述 投票:0回答:1

我有一个MultiIndex DataFrame,其级别为1的gappy日期值,如下所示:

np.random.seed(456)
j = [(a, b) for a in ['A','B','C'] for b in random.sample(pd.date_range('2018-01-01', periods=100, freq='D').tolist(), 5)]
j.sort()
i = pd.MultiIndex.from_tuples(j, names=['Name','Date'])
df = pd.DataFrame(np.random.random_integers(0,100,15), i, columns=['Vals'])
# print(df):
                 Vals
Name Date            
A    2018-01-01    27
     2018-01-08    43
     2018-03-26    89
     2018-03-29    42
     2018-04-01    28
B    2018-01-02    79
     2018-01-26    60
     2018-02-18    45
     2018-03-11    37
     2018-03-23    92
C    2018-03-17    39
     2018-03-20    81
     2018-03-21    11
     2018-03-27    77
     2018-04-08    69

对于每个0级值,我想用该级别0的最小和最大日期值之间的每个日历日期填写索引级别1.(This Q&A解决了填充级别1的情况,并为所有级别0设置了相同的值值)。

例如,对于subset = df.loc['A']我想插入行以便subset.index.values == pd.date_range(subset.index.values.min(), subset.index.values.max()).values。即,生成的DataFrame看起来像:

                 Vals
Name Date            
A    2018-01-01    27
     2018-01-02   NaN
     2018-01-03   NaN
     2018-01-04   NaN
     2018-01-05   NaN
     2018-01-06   NaN
     2018-01-07   NaN
     2018-01-08    43
     2018-01-09   NaN
...

是否有一种实现这一目标的熊猫方式?

(我能想到的最好的方法是为每个0级值低效率和迭代地使用append新的DataFrame。或者类似地迭代地构造索引值列表,然后使用原始DataFrame对它们进行pandas.concat。)

python pandas dataframe multi-index
1个回答
2
投票

你可以使用asfreq

df.groupby(level=0).apply(lambda x: x.reset_index(level=0, drop=True).asfreq("D"))
© www.soinside.com 2019 - 2024. All rights reserved.