如何使基于df.idxmax系列基于日期的彩条？

Question

Python的初学者/这里首款海报。

我遇到麻烦加彩条散点图。我有两个的情节类型：按日期一个显示日期的所有数据颜色编码，以及一个显示只是我的最大数据值颜色编码。在第一种情况下，我可以使用df.index（这是日期时间），使我的彩条，而在第二种情况下，我使用DF2 [“关口”。idxmax生成的颜色，因为我DF2是DF .groupby反对我使用生成我的数据每天的最大值其中，它不具有可访问的索引。

对于第一类的情节，我已经成功地创造了用下面的代码，从网上的例子拼凑了一个基于日期的彩条：

fig, ax = plt.subplots(1,1, figsize=(20,20))

smap=plt.scatter(df.col1, df.col2, s=140, 
             c=[date2num(i.date()) for i in df.index],
             marker='.')

cb = fig.colorbar(smap, orientation='vertical',
              format=DateFormatter('%d %b %y'))

但对于第二类的情节，在这里我想使用DF2 [“关口”]的idxmax创建枣系列，而不是df.index，下面不工作：

for n in cols1:
    for m in cols2:
        fig, ax = plt.subplots(1,1, figsize=(15,15))

        maxTimes=df2[n].idxmax()
        PlottableTimes=maxTimes.dropna() #some NaNs in the 
        #.idxmax series were giving date2num trouble

        smap2=plt.scatter(df2[n].max(), df2[m].max(),
             s=160, c=[date2num(i.date()) for i in PlottableTimes], 
             marker='.')

        cb2 = fig.colorbar(smap2, orientation='vertical',
                      format=DateFormatter('%d %b %y'))  

        plt.show()

错误是：“RGBA序列的长度应该是3或4”

由于错误抱怨色彩的说法，我分别检查了色的输出（即C =）参数在各标绘命令，都类似于我，所以我想不通为什么一个颜色参数工程和其他没有：

一个工程：

[736809.0, 736809.0, 736809.0, 736809.0, 736809.0, 736809.0, 736809.0, 736809.0, 736809.0, 736809.0, ...]

一个不工作：

[736845.0, 736846.0, 736847.0, 736848.0, 736849.0, 736850.0, 736851.0, 736852.0, 736853.0, 736854.0, ...]

任何建议或解释？我跑python的3.5.2。预先感谢您帮助我理解这一点。

编辑1：我做了下面的例子为他人探讨，并在此过程中实现了问题的关键是比我的第一个问题不同。下面的代码工作我希望它的方式：

df=pd.DataFrame(np.random.randint(low=0, high=10, size=(169, 8)), 
            columns=['a', 'b', 'c', 'd', 'e','f','g','h']) #make sample data
date_rng = pd.date_range(start='1/1/2018', end='1/8/2018', freq='H')
df['i']=date_rng
df = df.set_index('i') #get a datetime index
df['ts']=date_rng #get a datetime column to group by

from pandas import Grouper
df2=df.groupby(Grouper(key='ts', freq='D'))

for n in ['a','b','c','d']: #now make some plots
for m in ['e','f','g','h']:
    print(m)
    print(n)

    fig, ax = plt.subplots(1,1, figsize=(5,5))
    maxTimes=df2[n].idxmax()
    PlottableTimes=maxTimes.dropna()

    smap=plt.scatter(df2[n].max(), df2[m].max(), s=160, 
                     c=[date2num(i.date()) for i in PlottableTimes], 
                     marker='.')
    cb = fig.colorbar(smap, orientation='vertical',
                      format=DateFormatter('%d %b %y'))  
    plt.show()

我的实际数据和这个例子之间的唯一区别是，我的真实数据在整个分散在许多NaN的。所以，我觉得什么错误是，“C =”的说法是不足够长的绘图命令将其解释为覆盖整个日期范围...？例如，如果我手动把在c =命令的输出，得到类似如下代码也可以工作：

for n in ['a','b','c','d']:
    for m in ['e','f','g','h']:
        print(m)
        print(n)

        fig, ax = plt.subplots(1,1, figsize=(5,5))
        maxTimes=df2[n].idxmax()
        PlottableTimes=maxTimes.dropna()

        smap=plt.scatter(df2[n].max(), df2[m].max(), s=160, 
                     c=[736809.0, 736810.0, 736811.0, 736812.0, 736813.0, 736814.0, 736815.0, 736816.0], 
                     marker='.')
        cb = fig.colorbar(smap, orientation='vertical',
                      format=DateFormatter('%d %b %y'))  
        plt.show()

但是，如果我缩短了C =阵列一定量，模拟什么是我的代码发生时，NaN是正从idxmax下降，它让我看到了同样的错误：

for n in ['a','b','c','d']:
    for m in ['e','f','g','h']:
        print(m)
        print(n)

        fig, ax = plt.subplots(1,1, figsize=(5,5))
        maxTimes=df2[n].idxmax()
        PlottableTimes=maxTimes.dropna()

        smap=plt.scatter(df2[n].max(), df2[m].max(), s=160, 
                     c=[736809.0, 736810.0, 736811.0, 736812.0, 736813.0, 736814.0], 
                     marker='.')
        cb = fig.colorbar(smap, orientation='vertical',
                      format=DateFormatter('%d %b %y'))  
        plt.show()

因此，这意味着真正的问题是：如何从GROUPBY对象分组后抢石斑鱼列，当没有任何列似乎抓斗能与df2.col？我想可以从以下抢“TS”，并用它为彩色数据，而不是使用idxmax：

df2['a'].max()

ts
2018-01-01    9
2018-01-02    9
2018-01-03    9
2018-01-04    9
2018-01-05    9
2018-01-06    9
2018-01-07    9
2018-01-08    8
Freq: D, Name: a, dtype: int64

Answer 1

从本质上讲，你的石斑鱼调用类似于索引上的日期时间列和callingpandas.DataFrame.resample指定聚合函数：

df.set_index('ts').resample('D').max()
#             a  b  c  d  e  f  g  h
# ts                                
# 2018-01-01  9  9  8  9  9  9  9  9
# 2018-01-02  9  9  9  9  9  9  9  9
# 2018-01-03  9  9  9  9  9  9  9  9
# 2018-01-04  9  9  9  9  9  9  9  9
# 2018-01-05  9  9  9  9  9  9  9  9
# 2018-01-06  9  9  9  8  9  9  9  9
# 2018-01-07  9  9  9  9  9  9  9  9
# 2018-01-08  2  8  6  3  1  3  2  7

因此，df2['a'].max()的回报是一个熊猫重采样对象，非常类似于熊猫系列，因此携带，你可以使用彩条样式的刻度属性：

df['a'].max().index

# DatetimeIndex(['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04',
#                '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08'],
#               dtype='datetime64[ns]', name='ts', freq='D')

从那里，你可以进入date2num没有列表理解：

date2num(df2['a'].max().index)

# array([736695., 736696., 736697., 736698., 736699., 736700., 736701., 736702.])

总之，只要在上述循环使用，而无需maxTimes或PlottableTimes：

fig, ax = plt.subplots(1, 1, figsize = (5,5))

smap = plt.scatter(df2[n].max(), df2[m].max(), s = 160, 
                   c = date2num(df2[n].max().index), 
                   marker = '.')
cb = fig.colorbar(smap, orientation = 'vertical',
                  format = DateFormatter('%d %b %y'))

如何使基于df.idxmax系列基于日期的彩条？

问题描述投票：-1回答：1

1个回答

最新问题

如何使基于df.idxmax系列基于日期的彩条？

问题描述 投票：-1回答：1

1个回答

最新问题

问题描述投票：-1回答：1