决策树后修剪和信息泄漏

问题描述 投票:0回答:0

据我了解,决策树的修剪有两个目标:

  1. 减少(不必要的)模型复杂性
  2. 防止过拟合

我的问题是针对后修剪的:在这种类型的修剪中,我们使用验证测试来(重新)构建我们的模型(至少使用减少错误的修剪方法)。然而,验证集的最初目的是调整我们的参数。所以我的问题是:

  1. 这种剪枝不会引入信息泄露吗?
  2. 在这种情况下,我们是否需要进一步单独的集合(类似于 training_1/training_2/validation & testing,其中 training_1 最初用于构建树,training_2 用于修剪)?
machine-learning decision-tree
© www.soinside.com 2019 - 2024. All rights reserved.