异常检测的自动化

问题描述 投票:0回答:2

我正在研究一个问题,即离群检测的自动化。为此,我需要一种算法来检测异常值。

我读到了关于z得分和inter-quantile范围。但z得分仅适用于正态分布的数据。如果它适用于各种数据(即使它遵循高斯分布,泊松分布),我也不确定分位数间距。我也读过DBSCAN,但不知道这种方法的可信度

任何人都可以在python中建议我一些算法或一些包,我可以用它来自动检测离群值。

我正在寻找更多的算法,甚至研究论文都可以,我可以稍后在python中编码。

以下参考是我必须找到异常值的数据示例之一。

月份已售出1 23178.78 2 23547.41 3 17720.51 4 25837.56 5 20375.98 6 16260.64 7 22881.59 8 25202.29 9 17255.29 10 20495.58 11 21253.27 12 20145.73

python algorithm statistics outliers
2个回答
0
投票

Sklearn有很多异常值检测算法。例如,您有Isolation Forests和Oneclass SVM。

这里是链接enter link description here的一些例子


0
投票

最近,我正在研究异常值检测工具主题。根据我的经验,要做异常值检测,您可能需要先解决问题。你想要的异常是什么? 2.对于要素视图,要测量多少要素? One Dimension非常简单,2或N个特征是完全不同的问题。 3.您希望如何向您展示OD结果? 1或2维度很容易,3或更多维度应该是一个很大的挑战。 4.什么是特征数据类型,数字或分类数据?对于分类数据,您可以在开始时将它们转换为虚拟因子。

关于异常值检测算法,我认为您可以根据您的数据进行选择。对于1维,Z得分(scipy)或Mad()模式都可以。虽然数据不是正态分布,但这两种模式可以很容易解释。你可以使用更复杂的算法,花更多的时间来解释为什么它们被计算为异常值。 Zscore方法对极端异常值敏感。在这种情况下,Mad方法更加健壮。对于2个或更多维度,我最喜欢的孤立森林。大数据集中的快速(se)和可接受的准确度(88%~89%)。

© www.soinside.com 2019 - 2024. All rights reserved.