我正在使用随机森林进行二元分类,测试大小为0.3,5倍cv,对于火车和测试,精度和召回都超过99%,我是否过度拟合?
如果您已经在火车上进行了70-30次列车测试分组和5次CV。在达到99%的精确度并在TEST集上召回之后,您已经涵盖了所有步骤。
您可以验证的是您的测试和火车拆分中数据分布的比例。在你的y_train和y_test上做一个意思。验证您获得可比较的数字。
检查来自列车和测试数据集的样本是否不同,并可能尝试在一些新的真实样本上运行。