我是这个数据科学领域的新手。我有一个问题要对新数据应用随机森林。
我有这张桌子。
Y prop_A prop_B
A 0.8 0.2
A 0.7 0.3
B 0.5 0.5
B 0.4 0.6
B 0.1 0.9
我假设如果组中的比例很高,则该组中的机会很高。我使用随机森林建立了一个模型,并使用验证集(8/2分割)对其进行了测试。
我认为上述模型可以用于新数据。这是数据的一个例子。数据结构和变量含义相同,但变量数量不同。
Y prop_C prop_D prop_E prop_F
- 0.8 0.1 0.05 0.05
- 0.6 0.3 0.05 0.05
- 0.5 0.4 0.05 0.05
- 0.4 0.2 0.4 0
- 0.1 0.5 0.4 0.4
新数据没有标签,因此我想使用与先前数据一起使用的随机森林进行标签。标记新数据是否正确?
在模型中,它不起作用(由于不同的自变量)。
我应该如何使用标记的数据基于模型标记新数据,这是不同的?
自变量的编号与变量应相同。如果您想尝试一下,只需省略(prop_E和Prop_F)并将(prop_C和Prop_D)重命名为(prop_A和Prop_B),它将起作用