如何平滑和绘制x加权平均值y，加权x？

Question

我有一个数据框，其中包含一列权重和一个值。我需要：

对权重进行离散，并且对于每个权重间隔，绘制值的加权平均值
将相同的逻辑扩展到另一个变量：离散z，并且对于每个区间，绘制加权平均值，按权重加权

有没有一种简单的方法来实现这一目标？我找到了一种方法，但似乎有点麻烦：

我用pandas.cut（）对数据帧进行了离散化
做一个groupby并计算加权平均值
绘制每个仓的平均值与加权平均值的关系
我也尝试用样条曲线平滑曲线，但它没有做太多

基本上我正在寻找一种更好的方法来产生更平滑的曲线。

我的输出如下：

我的代码和一些随机数据是：

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.interpolate import make_interp_spline, BSpline

n=int(1e3)
df=pd.DataFrame()
np.random.seed(10)
df['w']=np.arange(0,n)
df['v']=np.random.randn(n)
df['ranges']=pd.cut(df.w, bins=50)
df['one']=1.
def func(x, df):
    # func() gets called within a lambda function; x is the row, df is the entire table
    b1= x['one'].sum()
    b2 = x['w'].mean()
    b3 = x['v'].mean()       
    b4=( x['w'] * x['v']).sum() / x['w'].sum() if x['w'].sum() >0 else np.nan

    cols=['# items','avg w','avg v','weighted avg v']
    return pd.Series( [b1, b2, b3, b4], index=cols )

summary = df.groupby('ranges').apply(lambda x: func(x,df))

sns.set(style='darkgrid')

fig,ax=plt.subplots(2)
sns.lineplot(summary['avg w'], summary['weighted avg v'], ax=ax[0])
ax[0].set_title('line plot')

xnew = np.linspace(summary['avg w'].min(), summary['avg w'].max(),100)
spl = make_interp_spline(summary['avg w'], summary['weighted avg v'], k=5) #BSpline object
power_smooth = spl(xnew)
sns.lineplot(xnew, power_smooth, ax=ax[1])
ax[1].set_title('not-so-interpolated plot')

Answer 1

问题的第一部分很容易做到。

我不确定你对第二部分的意思。您想要（简化）复制代码或更符合您需求的新方法吗？

无论如何，我必须查看你的代码，通过加权值来理解你的意思。我认为人们通常会期待与术语不同的东西（就像警告一样）。

这是您的方法的简化版本：

df['prod_v_w'] = df['v']*df['w']
weighted_avg_v = df.groupby(pd.cut(df.w, bins=50))[['prod_v_w','w']].sum()\
                   .eval('prod_v_w/w')
print(np.allclose(weighted_avg_v, summary['weighted avg v']))
Out[18]: True

Answer 2

我认为你使用很少的插值值，通过将xnew = np.linspace(summary['avg w'].min(), summary['avg w'].max(),100)更改为xnew = np.linspace(summary['avg w'].min(), summary['avg w'].max(),500)我得到以下内容：

并将样条度改为qazxsw poi我得到以下结果：

k=2

我认为插值的一个很好的起点可能是和n/2，因为它表现出较少的数据变形。希望能帮助到你。

Answer 3

如果我理解正确，那么你正试图重新创建滚动平均值。

这已经是Pandas数据帧的功能，使用k=2函数：

rolling

其中dataframe.rolling(n).mean()是平均值的“窗口”或“bin”中使用的相邻点的数量，因此您可以调整它以获得不同的平滑度。

你可以在这里找到例子：

Answer 4

我认为这是你所寻求的解决方案。它像其他人建议的那样使用滚动窗口。为了让它正常工作，需要更多的工作。

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.rolling.html

df["w*v"] = df["w"] * df["v"] def rolling_smooth(df,N): df_roll = df.rolling(N).agg({"w":["sum","mean"],"v":["mean"],"w*v":["sum"]}) df_roll.columns = [' '.join(col).strip() for col in df_roll.columns.values] df_roll['weighted avg v'] = np.nan cond = df_roll['w sum'] > 0 df_roll.loc[cond,'weighted avg v'] = df_roll.loc[cond,'w*v sum'] / df_roll.loc[cond,'w sum'] return df_roll df_roll_100 = rolling_smooth(df,100) df_roll_200 = rolling_smooth(df,200) plt.plot(summary['avg w'], summary['weighted avg v'],label='original') plt.plot(df_roll_100["w mean"],df_roll_100["weighted avg v"],label='rolling N=100') plt.plot(df_roll_200["w mean"],df_roll_200["weighted avg v"],label='rolling N=200') plt.legend()

如何平滑和绘制x加权平均值y，加权x？

问题描述投票：6回答：4

4个回答

最新问题

如何平滑和绘制x加权平均值y，加权x？

问题描述 投票：6回答：4

4个回答

最新问题

问题描述投票：6回答：4