如何根据条件连接同一列的值？

Question

我有一张看起来像这样的桌子 -

date        name        values      items
01-03-2019  xyz         900         NaN
NaN         NaN         900         brush
02-03-2019  abc        1200         NaN
NaN         NaN         900         paste
NaN         NaN         300         floss

和期望的输出是 -

date            name       values        items
01-03-2019      xyz        900           brush
02-03-2019      abc        1200          paste, floss

我知道我可以使用np.where（）来生成每个项目NaN的值，但我不知道我应该如何进行连接，然后将结果与名称一起移动。

Answer 1

使用GroupBy.agg第一列和ffill用于向前填充缺失值和字典，这是动态创建的 - 对于每个列没有date和items应用聚合函数GroupBy.first和最后一列items使用join删除缺失值：

d = dict.fromkeys(df.columns.difference(['date','items']), 'first')
d['items'] = lambda x: ', '.join(x.dropna())
df = df.groupby(df['date'].ffill()).agg(d).reset_index()
print (df)
         date name  values         items
0  01-03-2019  xyz     900         brush
1  02-03-2019  abc    1200  paste, floss

如果只有几列可以通过groupby传递2列到ffill并创建传递给agg的字典：

df = (df.groupby([df['date'].ffill(), df['name'].ffill()])
       .agg({'values':'first', 'items':lambda x: ', '.join(x.dropna())})
       .reset_index())
print (df)
         date name  values         items
0  01-03-2019  xyz     900         brush
1  02-03-2019  abc    1200  paste, floss

Answer 2

我们可以使用fillna和forwardfill (ffill)。然后dropna和groupby与agg同时获得值的sum并连接项目中的字符串：

df[['date', 'name']] = df[['date', 'name']].fillna(method='ffill')

df = df.dropna().groupby('date').agg({'name':'first',
                                      'values':'sum',
                                      'items':', '.join}).reset_index()

print(df)
         date name  values         items
0  01-03-2019  xyz     900         brush
1  02-03-2019  abc    1200  paste, floss

如何根据条件连接同一列的值？

问题描述投票：1回答：2

2个回答

最新问题

如何根据条件连接同一列的值？

问题描述 投票：1回答：2

2个回答

最新问题

问题描述投票：1回答：2