如何使用机器学习模型处理新数据?

问题描述 投票:0回答:1

我是这个数据科学领域的新手。我有一个问题要对新数据应用随机森林。

我有这张桌子。

Y prop_A prop_B
A   0.8    0.2
A   0.7    0.3
B   0.5    0.5
B   0.4    0.6
B   0.1    0.9

我假设如果组中的比例很高,则该组中的机会很高。我使用随机森林建立了一个模型,并使用验证集(8/2分割)对其进行了测试。

我认为上述模型可以用于新数据。这是数据的一个例子。数据结构和变量含义相同,但变量数量不同。

Y prop_C prop_D prop_E prop_F
-   0.8    0.1   0.05   0.05
-   0.6    0.3   0.05   0.05
-   0.5    0.4   0.05   0.05
-   0.4    0.2   0.4     0
-   0.1    0.5   0.4    0.4

新数据没有标签,因此我想使用与先前数据一起使用的随机森林进行标签。标记新数据是否正确?

在模型中,它不起作用(由于不同的自变量)。

我应该如何使用标记的数据基于模型标记新数据,这是不同的?

machine-learning
1个回答
1
投票

自变量的编号与变量应相同。如果您想尝试一下,只需省略(prop_E和Prop_F)并将(prop_C和Prop_D)重命名为(prop_A和Prop_B),它将起作用

© www.soinside.com 2019 - 2024. All rights reserved.