如何研究高维数据中离群值的性质？

问题描述投票：0回答：1

我有一大堆高维数据，并且实例是否标记为离群值。我正在寻找关于这些异常值在数据中的位置的信息。，我试图回答以下问题：

离群值是否彼此分开很远？还是它们聚集在一起？
离群值是否位于良好数据簇之间？还是它们位于数据的“边缘”边界上？
如果离群值聚在一起，这些聚类密度与良好数据的聚类相比如何？
'异常值在哪里？

什么样的技术会让我找到这些见解？如果数据是2维或3维的，我可以轻松地绘制数据并只需look即可。但是我无法处理高维数据。

data-visualization cluster-analysis outliers anomaly-detection

1个回答

0
投票

分析异常值的统计特性

首先，如果您可以选择关注特定功能。对于例如，如果您知道某件作品的变化很大，则可以绘制箱形图。如果您想专注于2D图形，也可以绘制2D图形2个特点。这显示了标记的异常值有多少变化。
接下来，有一个称为Z得分的指标，它基本上说明了许多标准设计，与平均值相比，一个点有所不同。的Z分数是带符号的，表示如果某点低于均值，则Z分数将是负面的。这可以用来分析数据集。您可以在标记的数据集中找到阈值，对于该阈值，高于该阈值的所有点都标记为离群值
最后，我们可以找到四分位数范围并进行类似的过滤基于它。 IQR只是75百分位数和25个百分位数。您也可以类似于Z分数来使用它。

使用这些技术，我们可以分析异常值的一些统计属性。如果您还想分析聚类，则可以使DBSCAN算法适应您的问题。该算法基于密度对数据进行聚类，因此将技术轻松应用于离群值将很容易。

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.