如何使用机器学习模型处理新数据？

Question

我是这个数据科学领域的新手。我有一个问题要对新数据应用随机森林。

我有这张桌子。

Y prop_A prop_B
A   0.8    0.2
A   0.7    0.3
B   0.5    0.5
B   0.4    0.6
B   0.1    0.9

我假设如果组中的比例很高，则该组中的机会很高。我使用随机森林建立了一个模型，并使用验证集（8/2分割）对其进行了测试。

我认为上述模型可以用于新数据。这是数据的一个例子。数据结构和变量含义相同，但变量数量不同。

Y prop_C prop_D prop_E prop_F
-   0.8    0.1   0.05   0.05
-   0.6    0.3   0.05   0.05
-   0.5    0.4   0.05   0.05
-   0.4    0.2   0.4     0
-   0.1    0.5   0.4    0.4

新数据没有标签，因此我想使用与先前数据一起使用的随机森林进行标签。标记新数据是否正确？

在模型中，它不起作用（由于不同的自变量）。

我应该如何使用标记的数据基于模型标记新数据，这是不同的？

Answer 1

自变量的编号与变量应相同。如果您想尝试一下，只需省略（prop_E和Prop_F）并将（prop_C和Prop_D）重命名为（prop_A和Prop_B），它将起作用

如何使用机器学习模型处理新数据？

问题描述投票：0回答：1

1个回答

最新问题

如何使用机器学习模型处理新数据？

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1