我合并了 3 个数据集,全部包含从 2014 年到 2022 年的年度范围,现在我有 3 个年度系数:
Internet Penetration Rate
、GDP
和 GDP Growth
。如何从近 30 列中选择两个自变量(GDP 和 GDP 增长)?我在 VSCode 中使用 Jupyter Notebooks。
这是数据集:
X = df_merged.iloc[:, ].values # independent variables: GDP and GDP Growth %
y = df_merged.iloc[:, ].values # dependent variable: Internet Penetration Rate
我在方括号内输入什么值?
编辑:我设法用以下方法定义自变量:
gdp_col = [col for col in df_merged.columns if col.startswith("GDP ")][0]
gdp_growth_col = [col for col in df_merged.columns if col.startswith("GDP Growth ")][0]
X_columns = [gdp_col, gdp_growth_col]
X = df_merged.loc[:, X_columns]
但问题是,当我打印 X 时,我得到了 2014 年的 GDP 和 GDP 增长值。我如何分配所有年份?
您的问题与数据集的大小无关。
当您正在寻找多列的位置时,可以这样做:
X = df_merged.iloc[:, [df_merged.columns.get_loc(col) for col in ['GDP', 'GDP Growth %']]]
对于单列:
y = df_merged.iloc[:, df_merged.columns.get_loc("Internet Penetration Rate")]