pandas-重新采样-下采样之前的上采样

问题描述 投票:2回答:2

我有一个熊猫数据帧,其中包含有关不同时标的信息,即在某些时段内,我每秒有100个数据点,在其他时段中,我每分钟有1个数据点。

我的目标是使用固定的时间窗口(例如:1秒)对该数据帧进行重新采样,在上采样时使用last进行正则化,而在下采样时使用均值。

此外,我希望指定算法同时执行两个操作(降采样和升采样)的顺序,因为我需要先执行升采样(使用最后一个),然后才执行降采样(使用均值)。

使用pandas重采样功能完全可以吗?

例如,在下面的示例代码中,我想在结果数据帧中使用以下值:0(介于10到10秒之间,0.5(代表最后一次),介于10到19秒之间,以及10(介于19到39秒之间) 。

import pandas as pd
import numpy as np

df1 = pd.DataFrame({'value' : np.repeat(1,10)}, index=pd.date_range('2010-01-01 00:00:00', periods=10, freq='1S'))
df2 = pd.DataFrame({'value' : np.repeat(0,10)}, index=pd.date_range('2010-01-01 00:00:00.5', periods=10, freq='1S'))
df3 = pd.DataFrame({'value' : np.repeat(10,3)}, index=pd.date_range('2010-01-01 00:00:19', periods=3, freq='10S'))

df = pd.concat([df1, df2, df3], axis=0)
df = df.sort_index()

df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='mean')

您如何建议我解决这个问题?

编辑:我的实际数据帧很大,因此我想减少操作的数量,尤其是那些涉及对象复制的操作。

python pandas dataframe
2个回答
2
投票

首先使用降采样功能进行传统的重采样:

df_new = df.resample(rule='1S')

接着在update的地方进行升采样,但不要覆盖它。您正在使用向前填充的上采样数据填充空白:

df_new.update(df.resample(rule='1S', fill_method='ffill', kind='timestamp', how='last'), 
              overwrite=False)

>>> df_new
                     value
2010-01-01 00:00:00    0.5
2010-01-01 00:00:01    0.5
2010-01-01 00:00:02    0.5
2010-01-01 00:00:03    0.5
2010-01-01 00:00:04    0.5
2010-01-01 00:00:05    0.5
2010-01-01 00:00:06    0.5
2010-01-01 00:00:07    0.5
2010-01-01 00:00:08    0.5
2010-01-01 00:00:09    0.5
2010-01-01 00:00:10    0.0
2010-01-01 00:00:11    0.0
2010-01-01 00:00:12    0.0
2010-01-01 00:00:13    0.0
2010-01-01 00:00:14    0.0
2010-01-01 00:00:15    0.0
2010-01-01 00:00:16    0.0
2010-01-01 00:00:17    0.0
2010-01-01 00:00:18    0.0
2010-01-01 00:00:19   10.0
2010-01-01 00:00:20   10.0
2010-01-01 00:00:21   10.0
2010-01-01 00:00:22   10.0
2010-01-01 00:00:23   10.0
2010-01-01 00:00:24   10.0
2010-01-01 00:00:25   10.0
2010-01-01 00:00:26   10.0
2010-01-01 00:00:27   10.0
2010-01-01 00:00:28   10.0
2010-01-01 00:00:29   10.0
2010-01-01 00:00:30   10.0
2010-01-01 00:00:31   10.0
2010-01-01 00:00:32   10.0
2010-01-01 00:00:33   10.0
2010-01-01 00:00:34   10.0
2010-01-01 00:00:35   10.0
2010-01-01 00:00:36   10.0
2010-01-01 00:00:37   10.0
2010-01-01 00:00:38   10.0
2010-01-01 00:00:39   10.0

您无法在单个resample操作中混合上采样/下采样。我不确定为什么只要您获得期望的结果,操作顺序对您来说就很重要。


0
投票

由于熊猫折旧了how=fill_method=参数,因此新语法为:

df_new = df.resample(rule='1S').mean()
df_new.update(df.resample(rule='1S').ffill(), overwrite=False)
© www.soinside.com 2019 - 2024. All rights reserved.