如何在大型时间序列数据集中选取自变量?

问题描述 投票:0回答:1

我合并了 3 个数据集,全部包含从 2014 年到 2022 年的年度范围,现在我有 3 个年度系数:

Internet Penetration Rate
GDP
GDP Growth
。如何从近 30 列中选择两个自变量(GDP 和 GDP 增长)?我在 VSCode 中使用 Jupyter Notebooks。

这是数据集:
this is the dataset

X = df_merged.iloc[:, ].values # independent variables: GDP and GDP Growth %

y = df_merged.iloc[:, ].values # dependent variable: Internet Penetration Rate

我在方括号内输入什么值?

编辑:我设法用以下方法定义自变量:

gdp_col = [col for col in df_merged.columns if col.startswith("GDP ")][0]

gdp_growth_col = [col for col in df_merged.columns if col.startswith("GDP Growth ")][0]

X_columns = [gdp_col, gdp_growth_col]

X = df_merged.loc[:, X_columns]

但问题是,当我打印 X 时,我得到了 2014 年的 GDP 和 GDP 增长值。我如何分配所有年份?

python pandas time-series
1个回答
0
投票

您的问题与数据集的大小无关。

当您正在寻找多列的位置时,可以这样做:

X = df_merged.iloc[:, [df_merged.columns.get_loc(col) for col in ['GDP', 'GDP Growth %']]]

对于单列:

y = df_merged.iloc[:, df_merged.columns.get_loc("Internet Penetration Rate")]
© www.soinside.com 2019 - 2024. All rights reserved.