如何研究高维数据中离群值的性质?

问题描述 投票:0回答:1

我有一大堆高维数据,并且实例是否标记为离群值。我正在寻找关于这些异常值在数据中的位置的信息。,我试图回答以下问题:

  1. 离群值是否彼此分开很远?还是它们聚集在一起?
  2. 离群值是否位于良好数据簇之间?还是它们位于数据的“边缘”边界上?
  3. 如果离群值聚在一起,这些聚类密度与良好数据的聚类相比如何?
  4. '异常值在哪里?

什么样的技术会让我找到这些见解?如果数据是2维或3维的,我可以轻松地绘制数据并只需look即可。但是我无法处理高维数据。

data-visualization cluster-analysis outliers anomaly-detection
1个回答
0
投票

分析异常值的统计特性

  • 首先,如果您可以选择关注特定功能。对于例如,如果您知道某件作品的变化很大,则可以绘制箱形图。如果您想专注于2D图形,也可以绘制2D图形2个特点。这显示了标记的异常值有多少变化。

  • 接下来,有一个称为Z得分的指标,它基本上说明了许多标准设计,与平均值相比,一个点有所不同。的Z分数是带符号的,表示如果某点低于均值,则Z分数将是负面的。这可以用来分析数据集。您可以在标记的数据集中找到阈值,对于该阈值,高于该阈值的所有点都标记为离群值

  • 最后,我们可以找到四分位数范围并进行类似的过滤基于它。 IQR只是75百分位数和25个百分位数。您也可以类似于Z分数来使用它。

使用这些技术,我们可以分析异常值的一些统计属性。如果您还想分析聚类,则可以使DBSCAN算法适应您的问题。该算法基于密度对数据进行聚类,因此将技术轻松应用于离群值将很容易。

© www.soinside.com 2019 - 2024. All rights reserved.