我正在尝试创建3种分类模型:朴素贝叶斯,随机森林和SVM。
我试图预测的变量是电影判决,其类别为“点击”或“翻牌”。我通过公式Revenue / Budget设计了这个变量的值,如果这个公式的值是1+,它被归类为命中,或者翻转。
我的问题是:由于我使用Revenue and Budget来创建Film Verdict变量,我可以将这两个用作模型中解释/自变量的一部分吗?
澄清:我还有其他几个变量,如ActorRating,Tweet Polarity等也用作输入变量。
是的你可以。当你使用predict
时,你可以使用的任何东西。但是,在您的示例中,模型将非常基本,输出变量可以非常容易地从输入变量派生。
您可能想要阅读的内容很少:
Data Leakage
:在火车中使用测试中的东西Heteroscedasticity
:当亚群体与其他群体具有不同的变异性时Collinearity
:自变量之间的高度相关性Overfitting
:模型在火车和测试之间的表现如何有些算法可以解决一些问题,所以知道这些可以帮助你找到最好的算法。
它们的相关系数很高,所以不应该使用。