我正在从事与安然电子邮件数据集相关的文本挖掘项目。目标是创建用于预测目标变量(标签)的最佳模型。目标是二元的,0 表示非欺诈,1 表示欺诈。目前数据大约有 420,000 个 0 和 2000 个 1,因此我们所有的模型都具有很高的准确性。我相信它将 1 条记录视为错误。我该如何在 Enterprise Miner 中解决这个问题?
我运行了我的模型,没有重新采样或创建不平衡程度较小的集合。准确率很高。
对于罕见事件,您可以在数据源本身或使用决策节点调整决策权重 - 两者都可以。我更喜欢在数据源本身上执行此操作。为此,请选择您的数据并单击屏幕左侧面板上的决策省略号。有关如何解决这种情况的一个很好的示例可以在文档中找到:决策节点示例
作为调整权重的示例,我们将使用 sashelp.class: