如何使用statsmodels获得多元线性回归的标准化(Beta)系数

问题描述 投票:1回答:2

当使用pandas statsmodels使用.summary()函数时,OLS回归结果包括以下字段。

coef    std err          t      P>|t|      [0.025      0.975]

如何获得标准化系数(不包括截距),类似于SPSS中可实现的系数?

python pandas regression statsmodels coefficients
2个回答
1
投票

我们可以通过exog的标准偏差来改变估计的params。 results.t_test(transformation)计算线性变换变量的参数表。

AFAIR,以下应产生β系数和相应的推论统计。

计算标准偏差,但将常数设置为1。

std = model.exog.std(0)
std[0] = 1

然后使用results.t_test并查看params_table。 np.diag(std)创建了一个转换params的对角矩阵。

tt = results.t_test(np.diag(std))
print(tt.summary()
tt.summary_frame()

0
投票

您只需要首先使用z分布(即z-score)标准化原始DataFrame,然后执行线性回归。

假设您将数据框命名为df,它具有独立变量x1x2x3,以及因变量y。请考虑以下代码:

import pandas as pd
import numpy as np
from scipy import stats
import statsmodels.formula.api as smf

# standardizing dataframe
df_z = df.select_dtypes(include=[np.number]).dropna().apply(stats.zscore)

# fitting regression
formula = 'y ~ x1 + x2 + x3'
result = smf.ols(formula, data=df_z).fit()

# checking results
result.summary()

现在,coef将向您显示标准化(beta)系数,以便您可以比较它们对因变量的影响。

笔记:

  1. 请记住,你需要.dropna()。否则,stats.zscore将返回列的所有NaN,如果它有任何缺失值。
  2. 您可以手动选择列,而不是使用.select_dtypes(),但请确保您选择的所有列都是数字。
  3. 如果您只关心标准化(beta)系数,您也可以使用result.params返回它。它通常以科学记法的方式显示。你可以使用像round(result.params, 5)这样的东西来围绕它们。
© www.soinside.com 2019 - 2024. All rights reserved.