分组后如何将行转换为列（具有自定义名称）？

Question

我正在尝试使用 pandas 获取一些行数据作为列。

我的原始数据框如下所示（有更多列）。同一员工的大多数数据都是重复的，但有些信息发生了变化，例如本例中的工资。员工具有不同数量的条目（在本例中，员工 1 有两个条目，2 有 4 个条目，依此类推）。

employee_id    salary    other1      other2      other3
1              50000     somedata1   somedata2   somedata3
1              48000     somedata1   somedata2   somedata3
2              80000     somedata20  somedata21  somedata22
2              77000     somedata20  somedata21  somedata22
2              75000     somedata20  somedata21  somedata22
2              74000     somedata20  somedata21  somedata22
3              60000     somedata30  somedata31  somedata32

我正在尝试得到类似以下的东西。薪资数据应跨越几列，并使用条目较少的员工的最后可用薪资（本例中的重复薪资值）。

employee_id    salary   prevsalary1    prevsalary2    prevsalary3    other1      other2      other3
1              50000    48000          48000          48000          somedata1   somedata2   somedata3
2              80000    77000          75000          74000          somedata20  somedata21  somedata22
3              60000    60000          60000          60000          somedata30  somedata31  somedata32

我尝试分组

df.groupby(["employee_id"])['salary'].nlargest(3).reset_index()

但我没有得到所有列。我找不到保留其余列的方法。我是否需要与原始数据框合并、连接或类似的操作？

此外，我得到一个名为“level_1”的列。我想我可以通过使用

reset_index(level=1, drop=True)

来摆脱它，但我相信这不会返回数据帧。

最后，我想如果我正确分组，还需要一个步骤来获取列...也许使用

pivot

或

unstack

？

我正在开始我的机器学习之旅，我一直对这个问题摸不着头脑，我希望你能帮助我:)

创建数据集：

df = pd.DataFrame({'emp_id':[1,1,2,2,2,2,3],'salary':[50000,48000,80000,77000,75000,74000,60000]})

df['other1'] =['somedata1','somedata1','somedata20','somedata20','somedata20','somedata20','somedata30']
df['other2'] = df['other1'].apply(lambda x: x+'1')
df['other3'] = df['other1'].apply(lambda x: x+'2')
df

Out[59]:
   emp_id  salary      other1       other2       other3
0       1   50000   somedata1   somedata11   somedata12
1       1   48000   somedata1   somedata11   somedata12
2       2   80000  somedata20  somedata201  somedata202
3       2   77000  somedata20  somedata201  somedata202
4       2   75000  somedata20  somedata201  somedata202
5       2   74000  somedata20  somedata201  somedata202
6       3   60000  somedata30  somedata301  somedata302

Answer 1

一种方法是将

pd.pivot_table

与

ffill

:

g = df.groupby('employee_id')
cols = g.salary.cumcount()
out = df.pivot_table(index='employee_id', values='salary', columns=cols).ffill(1)
# Crete list of column names matching the expected output
out.columns = ['salary'] + [f'prevsalary{i}' for i in range(1,len(out.columns))]

print(out)
             salary  prevsalary1  prevsalary2  prevsalary3
employee_id                                                
1            50000.0      48000.0      48000.0      48000.0
2            80000.0      77000.0      75000.0      74000.0
3            60000.0      60000.0      60000.0      60000.0

现在我们只需要加入原始数据框中唯一的

other

列即可：

out = out.join(df.filter(like='other').groupby(df.employee_id).first())

print(out)

             salary    prevsalary1  prevsalary2  prevsalary3      other1  \
employee_id                                                               
1            50000.0      48000.0      48000.0      48000.0   somedata1   
2            80000.0      77000.0      75000.0      74000.0  somedata20   
3            60000.0      60000.0      60000.0      60000.0  somedata30   

                 other2      other3  
employee_id                          
1             somedata2   somedata3  
2            somedata21  somedata22  
3            somedata31  somedata32

Answer 2

def function1(dd: pd.DataFrame):
    return pd.DataFrame(data=dd.T.to_numpy(),index=dd.iloc[[0]].index)

df1.set_index(['employee_id', 'other1', 'other2', 'other3']).groupby(['employee_id'], as_index=0, group_keys=0).apply(function1).add_prefix('prevsalary').rename(columns={'prevsalary0':'salary'}).ffill(axis=1).astype(int).reset_index()


          salary    prevsalary1  prevsalary2  prevsalary3      other1  \
employee_id                                                               
1            50000.0      48000.0      48000.0      48000.0   somedata1   
2            80000.0      77000.0      75000.0      74000.0  somedata20   
3            60000.0      60000.0      60000.0      60000.0  somedata30   

                 other2      other3  
employee_id                          
1             somedata2   somedata3  
2            somedata21  somedata22  
3            somedata31  somedata32

Answer 3

首先透视工资表，然后与非工资数据合并

# first create a copy of the dataset without the salary column
dataset_without_salaries = df.drop('salary', axis=1).drop_duplicates()
# pivot only salary column 
temp = pd.pivot_table(data=df[['salary']], index=df['employee_id'], aggfunc=list)
# expand the list
temp2 = temp.apply(lambda x: pd.Series(x['salary']), axis=1)
# merge the two together
final = pd.merge(temp2, dataset_without_salaries)

分组后如何将行转换为列（具有自定义名称）？

问题描述投票：0回答：3

3个回答

最新问题

分组后如何将行转换为列（具有自定义名称）？

问题描述 投票：0回答：3

3个回答

最新问题

问题描述投票：0回答：3