如何从pandas DataSeries中提取唯一的排列？

Question

使用Pandas DataSeries在Jupyter中工作我有一个包含如下行的数据集：

color: white
engineType: diesel
make: Ford
manufacturingYear: 2004
accidentCount: 123

我需要做的是绘制颜色/ engineType / make的所有排列的制造年份（x轴）的事故计数图表（y轴）。任何想法如何处理这个？

为了加快速度，我有了这个初始设置：

import numpy as np
import pandas as pd
from pandas import DataFrame, Series
import random


colors = ['white', 'black','silver']
engineTypes = ['diesel', 'petrol']
makes = ['ford', 'mazda', 'subaru']
years = range(2000,2005)

rowCount = 100

def randomEl(data):
    rand_items = [data[random.randrange(len(data))] for item in range(rowCount)]
    return rand_items


df = DataFrame({
    'color': Series(randomEl(colors)),
    'engineType': Series(randomEl(engineTypes)),
    'make': Series(randomEl(makes)),
    'year': Series(randomEl(years)),
    'accidents': Series([int(1000*random.random()) for i in range(rowCount)])
})

Answer 1

您可以使用color通过独特的engineType，make和groupby()组合获得事故数量：

accident_counts = df.groupby(['color', 'engineType', 'make'])['accidents'].sum()

Matplotlib是绘制结果的一种方式：

import matplotlib.pyplot as plt
accident_counts.plot(kind='bar')
plt.show()

如何从pandas DataSeries中提取唯一的排列？

问题描述投票：5回答：1

1个回答

最新问题

如何从pandas DataSeries中提取唯一的排列？

问题描述 投票：5回答：1

1个回答

最新问题

问题描述投票：5回答：1