我是数据科学的初学者。在参加黑客马拉松时面对挑战。我有一个火车数据集,在许多列中有很多异常值。与测试数据相同(列车和测试数据单独提供)。由于测试装置也具有相似的特性,因此我无法在列车组中立即移除异常值。如果我在测试中删除,那么我的测试数据行数会减少,这会在提交时抛出错误。任何人都可以指导我有效地处理异常值。扩展和日志转换也没有多大帮助。
好。如何检测和处理异常值是我感兴趣的话题之一。
我想回答一下。可以从两个观点回答。
通常R-Square可能高于50%,太低,有异常或有问题。在一些极端情况下,R2小于0.5%。
handle:way1。添加名为OD_flag_X1的新列,并将检测到的异常值设置为1. other keep 0. way2。将检测到的异常值替换为way1和way2的其他聚合值(均值,模式,中位数或其他)。正如我先前所说。您已在管道中添加异常值检测/句柄,以避免数据泄漏或步骤丢失。
这是我检测和处理异常值的方法。
希望它可以帮助您或其他读者。