R：具有许多（相关）预测变量的ML回归解决方案[关闭]

问题描述投票：0回答：1

我希望一些人听到有关以下数据情况的建议模型的意见：

我有一个大数据集，有n〜> 300名参与者，其中我有2个在同一时间点但来自不同组织的变量。我做了一个新的变量，表示这两个变量的值之间的绝对差，我想将其用作结果。总的来说，我对两个变量之间差异的原因感兴趣，也对变量本身上的值差异的原因感兴趣...

为了了解驱动因素，我可以包括几个预测因子（例如细胞类型，还包括体重/身高等表型以及一些分类变量）。问题在于变量是相关的，仅包括所有变量在过度拟合方面可能也是不好的。

因此，我想知道哪种模型最适合对此进行调查。到目前为止，我已经读过/想到了随机森林，某种类型的弹性网或套索回归，或者只是“简单”的前向或后向选择。

感谢您的建议！

我希望一些人听到有关以下数据情况的建议模型的意见：我有一个大数据集，其中n〜> 300位参与者，其中我同时测量了2个变量。...]] >

据我了解，您的数据集相对较小，包含许多（可能是相关的）特征/预测变量。对此没有万能的解决方案，因此您应该尝试使用不同的模型。

话虽这么说，我建议从线性Support Vector Machine开始，使用正则化参数C来对抗过度拟合。他们往往在数据很少的高维问题中表现良好，听起来像您所拥有的。

machine-learning

model

regression

1个回答

0
投票

据我了解，您的数据集相对较小，包含许多（可能是相关的）特征/预测变量。对此没有万能的解决方案，因此您应该尝试使用不同的模型。