我在 R 中使用带有 20 个解释变量的插入符号随机森林,其中一些是分类变量但采用数字编码。例如,一个分类变量是具有 6 个不同级别的土壤排水(1 = 排水良好,2 = 排水良好,3 = 排水不佳等...)在训练和预测之前,我将这些整数分类变量设置为因子。但是在运行模型之后,当我查看变量重要性表时,这些分类变量的每个级别都会被考虑(Drainage1,Drainage2 ......见图) - 我不想要。
应该如何处理随机森林模型的整数分类变量?