我想为groupby编写一个通用函数,假设我有大约100列的数据集,例如,它具有70个分类列,30个数字属性,现在我想编写一个通用的python函数,它将只使用数据集并会在图表或数据上以表格形式显示适当的groupby结果,在我开始之前会提供任何专家建议吗?
谢谢,湿婆神
您可以从标准库中合并随机模块,以获取所有数字列的随机样本。
df = pd.DataFrame({
'a': list('abcde'),
'b': ['1','2','3','4','5'],
'c': range(5),
'd': [i*21 for i in range(5)],
'e': [12,32,45,67,54]})
str_cols = df.select_dtypes(exclude='number').columns.tolist()
num_cols = random.sample(df.select_dtypes('number').columns.tolist(), k=2)
dff = df.loc[:, str_cols+num_cols]
print(dff)
a b d c
0 a 1 0 0
1 b 2 21 1
2 c 3 42 2
3 d 4 63 3
4 e 5 84 4