我想计算每个日期的累积产品和每个时间序列数据的唯一ID。我理解groupby
和cumprod
将需要一起使用。但是,我不确定确切的语法。
这是一些示例数据和想要的输出
data = {'date': ['2014-05-01','2014-05-01','2014-05-01','2014-05-01',
'2014-05-02','2014-05-02','2014-05-02','2014-05-02','2014-05-03',
'2014-05-03','2014-05-03', '2014-05-03'],'id':[1, 2, 3, 4, 1,
2, 3, 4, 1, 2, 3, 4],'obs': [1, 2, 3, 4, 4, 3, 2, 1, 1, 2, 3, 4]}
df = pd.DataFrame(data, columns = ['date', 'id','obs'])
df.index =df.date
del df['date']
df
id obs
date
2014-05-01 1 1
2014-05-01 2 2
2014-05-01 3 3
2014-05-01 4 4
2014-05-02 1 4
2014-05-02 2 3
2014-05-02 3 2
2014-05-02 4 1
2014-05-03 1 1
2014-05-03 2 2
2014-05-03 3 3
2014-05-03 4 4
创建的新列名为cumproduct,基于列obs中的值
DF
id obs cumproduct
date
2014-05-01 1 1 1
2014-05-01 2 2 2
2014-05-01 3 3 3
2014-05-01 4 4 4
2014-05-02 1 4 5
2014-05-02 2 3 5
2014-05-02 3 2 5
2014-05-02 4 1 5
2014-05-03 1 1 6
2014-05-03 2 2 7
2014-05-03 3 3 8
2014-05-03 4 4 9
任何帮助都是极好的 :)
import pandas as pd
data = {'date': ['2014-05-01', '2014-05-01', '2014-05-01', '2014-05-01',
'2014-05-02', '2014-05-02', '2014-05-02', '2014-05-03',
'2014-05-03', '2014-05-03'],
'id': [1, 2, 3, 4, 1, 2, 3, 4, 1, 2],
'obs': [1, 2, 3, 4, 5, 5, 5, 5, 6, 7]}
df = pd.DataFrame(data).set_index(['date', 'id']).sort_index(level='date')
df_cumprod = df.groupby('id').cumprod()
print(df_cumprod)
输出是:
obs
date id
2014-05-01 1 1
2 2
3 3
4 4
2014-05-02 1 5
2 10
3 15
2014-05-03 4 20
1 30
2 70
请注意,您提供的代码和数据在几个方面存在缺陷,并且不会运行。