如何在大型时间序列数据集中选取自变量？

Question

我合并了 3 个数据集，全部包含从 2014 年到 2022 年的年度范围，现在我有 3 个年度系数：

Internet Penetration Rate

、

GDP

和

GDP Growth

。如何从近 30 列中选择两个自变量（GDP 和 GDP 增长）？我在 VSCode 中使用 Jupyter Notebooks。

这是数据集：
this is the dataset

X = df_merged.iloc[:, ].values # independent variables: GDP and GDP Growth %

y = df_merged.iloc[:, ].values # dependent variable: Internet Penetration Rate

我在方括号内输入什么值？

编辑：我设法用以下方法定义自变量：

gdp_col = [col for col in df_merged.columns if col.startswith("GDP ")][0]

gdp_growth_col = [col for col in df_merged.columns if col.startswith("GDP Growth ")][0]

X_columns = [gdp_col, gdp_growth_col]

X = df_merged.loc[:, X_columns]

但问题是，当我打印 X 时，我得到了 2014 年的 GDP 和 GDP 增长值。我如何分配所有年份？

Answer 1

您的问题与数据集的大小无关。

当您正在寻找多列的位置时，可以这样做：

X = df_merged.iloc[:, [df_merged.columns.get_loc(col) for col in ['GDP', 'GDP Growth %']]]

对于单列：

y = df_merged.iloc[:, df_merged.columns.get_loc("Internet Penetration Rate")]

如何在大型时间序列数据集中选取自变量？

问题描述投票：0回答：1

1个回答

最新问题

如何在大型时间序列数据集中选取自变量？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1