创建时间序列数据的新SUMPRODUCT列

问题描述 投票:1回答:1

我要寻找蟒蛇相当于一对夫妇的数据列执行特定的计算。

这就是我的数据集的头部看起来像。

          Time  GenA  GenB  GenC  Price
0    1/01/2011   702   367  1355     58
1    2/01/2011   742     0  1013     59
2    3/01/2011   763   322   887     43
3    4/01/2011   558   356   851     50
4    5/01/2011   519   358   677     32
5    6/01/2011   697   154   352     35
6    7/01/2011   782     2   999     52
7    8/01/2011   579    10   493     47
8    9/01/2011   678   313   931     63
9   10/01/2011   595   314   434     34
10  11/01/2011   748   326  1338     72
11  12/01/2011   782   229   503     36
12  13/01/2011   645     3   410     53
13  14/01/2011   800    53   365     40
14  15/01/2011   639    11   123     62
15  16/01/2011   749    75   629     53
16  17/01/2011   625   223   537     38
17  18/01/2011   529    10    47     45
18  19/01/2011   687   192   542     55
19  20/01/2011   727    85   122     31
20  21/01/2011   674   183  1067     67

我想补充三列的加权价格为genA, genB & genC,我可以在Excel中做到这一点,如下所示:

excel

有没有在Python这样的方法吗?我有一个相当大的数据集,所以这将是巨大的,如果它是可能的。

python pandas numpy
1个回答
1
投票

这应该做的伎俩

import pandas as pd
import numpy as np

size = 8

#This is to generate a random set, you can use your data instead of this
df = pd.DataFrame(
    data=np.random.randint(1,10,(20,5)),
    index=np.arange(20),
    columns=['Time', 'GenA', 'GenB', 'GenC', 'Price']
    )

max_size = df.shape[0]

for a in ['A','B','C']:
    e = 'Gen' + a + '_W'
    df[e] = np.empty(max_size)
    for i in range(max_size-size):
        df[e][i] = np.average(df['Price'][i:i+size], weights=df['Gen'+a][i:i+size])

也许有这样做的更多的“大熊猫原生”的方式,但我已经习惯了的numpy的方式。希望它可以帮助反正

© www.soinside.com 2019 - 2024. All rights reserved.