如果用变量来设计因变量,我可以使用变量作为解释变量吗?

问题描述 投票:0回答:2

我正在尝试创建3种分类模型:朴素贝叶斯,随机森林和SVM。

我试图预测的变量是电影判决,其类别为“点击”或“翻牌”。我通过公式Revenue / Budget设计了这个变量的值,如果这个公式的值是1+,它被归类为命中,或者翻转。

我的问题是:由于我使用Revenue and Budget来创建Film Verdict变量,我可以将这两个用作模型中解释/自变量的一部分吗?

澄清:我还有其他几个变量,如ActorRating,Tweet Polarity等也用作输入变量。

r classification svm random-forest naivebayes
2个回答
0
投票

是的你可以。当你使用predict时,你可以使用的任何东西。但是,在您的示例中,模型将非常基本,输出变量可以非常容易地从输入变量派生。

您可能想要阅读的内容很少:

  • Data Leakage:在火车中使用测试中的东西
  • Heteroscedasticity:当亚群体与其他群体具有不同的变异性时
  • Collinearity:自变量之间的高度相关性
  • Overfitting:模型在火车和测试之间的表现如何

有些算法可以解决一些问题,所以知道这些可以帮助你找到最好的算法。


0
投票

它们的相关系数很高,所以不应该使用。

© www.soinside.com 2019 - 2024. All rights reserved.