从每月到每天重新采样数据帧

Question

这是我的问题：

这是我的DataFrame的示例（实际上是从2002年到2012年）

df = pd.DataFrame(
    {'Date':["2002-07-31","2002-07-31","2002-07-31","2002-07-31","2002-07-31","2002-08-31","2002-08-31","2002-08-31","2002-08-31","2002-08-31",'2002-09-30','2002-09-30','2002-09-30','2002-09-30','2002-09-30'],
     'Name': ["Paul", "John", "Silvia", "Mike", "Cindy","Paul", "David", "Harry", "Mike", "Britney","Francis", "Michael", "Charlie", "Joe", "Hilary"]})

哪个给这个

       Date     Name
0   2002-07-31  Paul
1   2002-07-31  John
2   2002-07-31  Silvia
3   2002-07-31  Mike
4   2002-07-31  Cindy
5   2002-08-31  Paul
6   2002-08-31  David
7   2002-08-31  Harry
8   2002-08-31  Mike
9   2002-08-31  Britney
10  2002-09-30  Francis
11  2002-09-30  Michael
12  2002-09-30  Charlie
13  2002-09-30  Joe
14  2002-09-30  Hilary

并且我想通过从2002-07-31到2002-08-30以及从2002-08-31到2002-09-30的所有名称固定来重新采样从Monthly到Daily DataFrame的系列。发生在每个月的月底，因此好像使用ffill（）方法进行重新采样）。

我正在寻找的结果是这样的：

   Date     Name
2002-07-31  Paul
2002-07-31  John
2002-07-31  Silvia
2002-07-31  Mike
2002-07-31  Cindy
2002-08-01  Paul
2002-08-01  John
2002-08-01  Silvia
2002-08-01  Mike
2002-08-01  Cindy
2002-08-02  Paul
2002-08-02  John
2002-08-02  Silvia
2002-08-02  Mike
2002-08-02  Cindy
2002-08-03  Paul
2002-08-03  John
2002-08-03  Silvia
2002-08-03  Mike
2002-08-03  Cindy
.....

2002-08-31  Paul
2002-08-31  David
2002-08-31  Harry
2002-08-31  Mike
2002-08-31  Britney
2002-09-01  Paul
2002-09-01  David
2002-09-01  Harry
2002-09-01  Mike
2002-09-01  Britney
....

2002-09-30  Francis
2002-09-30  Michael
2002-09-30  Charlie
2002-09-30  Joe
2002-09-30  Hilary

如您所见，名称仅在每个月底更改。对我来说，最困难的步骤是我选择了5个名称，但我真的不知道如何重新采样到每日数据框，而每天仍然有5个名称。

我已经看过此链接

Resampling Error : cannot reindex a non-unique index with a method or limit

但是这不是真正的相同的问题，我仍然找不到任何解决方案来管理我的问题。如果您有任何想法，欢迎您！

Answer 1

首先，确保您的Date列是datetime对象：

df['Date'] = df.Date.astype('datetime64')

然后，按Date列分组，将名称聚合为list，执行explode以扩展名称的list：

df.groupby('Date').agg(list).resample('D').ffill().explode('Name').reset_index()

# Result:
          Date     Name
0   2002-07-31     Paul
1   2002-07-31     John
2   2002-07-31   Silvia
3   2002-07-31     Mike
4   2002-07-31    Cindy
..         ...      ...
305 2002-09-30  Francis
306 2002-09-30  Michael
307 2002-09-30  Charlie
308 2002-09-30      Joe
309 2002-09-30   Hilary

[310 rows x 2 columns]

Answer 2

我将透视数据并使用asfreq进行数据采样，然后进行堆栈：

(df.assign(group=df.groupby('Date').cumcount())
  .set_index(['Date','group'])['Name']
  .unstack()
  .asfreq('D').ffill()
  .unstack()
  .reset_index('group',drop=True)
  .reset_index(name='Name')
)

输出：

          Date     Name
0   2002-07-31     Paul
1   2002-07-31     John
2   2002-07-31   Silvia
3   2002-07-31     Mike
4   2002-07-31    Cindy
..         ...      ...
305 2002-09-30  Francis
306 2002-09-30  Michael
307 2002-09-30  Charlie
308 2002-09-30      Joe
309 2002-09-30   Hilary

[310 rows x 2 columns]

从每月到每天重新采样数据帧

问题描述投票：0回答：2

2个回答

最新问题

从每月到每天重新采样数据帧

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2