R:具有许多(相关)预测变量的ML回归解决方案[关闭]

问题描述 投票:0回答:1
我希望一些人听到有关以下数据情况的建议模型的意见:

我有一个大数据集,有n〜> 300名参与者,其中我有2个在同一时间点但来自不同组织的变量。我做了一个新的变量,表示这两个变量的值之间的绝对差,我想将其用作结果。总的来说,我对两个变量之间差异的原因感兴趣,也对变量本身上的值差异的原因感兴趣...

为了了解驱动因素,我可以包括几个预测因子(例如细胞类型,还包括体重/身高等表型以及一些分类变量)。问题在于变量是相关的,仅包括所有变量在过度拟合方面可能也是不好的。

因此,我想知道哪种模型最适合对此进行调查。到目前为止,我已经读过/想到了随机森林,某种类型的弹性网或套索回归,或者只是“简单”的前向或后向选择。

感谢您的建议!

我希望一些人听到有关以下数据情况的建议模型的意见:我有一个大数据集,其中n〜> 300位参与者,其中我同时测量了2个变量。...]] >

据我了解,您的数据集相对较小,包含许多(可能是相关的)特征/预测变量。对此没有万能的解决方案,因此您应该尝试使用不同的模型。

话虽这么说,我建议从线性Support Vector Machine开始,使用正则化参数C来对抗过度拟合。他们往往在数据很少的高维问题中表现良好,听起来像您所拥有的。

r machine-learning model regression
1个回答
0
投票
据我了解,您的数据集相对较小,包含许多(可能是相关的)特征/预测变量。对此没有万能的解决方案,因此您应该尝试使用不同的模型。
© www.soinside.com 2019 - 2024. All rights reserved.