使用高斯分布自动选择用于异常检测的特征

问题描述 投票:-1回答:1

对于某些数据,我们可能需要手动创建功能,这些功能是早期功能的组合,以获得更好的算法。下面的分布(以及其他分布为椭圆形且其轴未与特征轴对齐的其他分布)是高斯分布不起作用的简单示例。

image来自斯坦福大学在coursera上的机器学习课程。

在该课程中被告知,多元高斯分布最适合它,或者我们可以开发一个新特征x_3 = x_2 / x_1。

我想自动执行此新功能选择,并认为使用PCA(方差百分比较高)将有助于创建“线性类型”的新功能,例如x_2 / x_1。这种image的长对角黑色线(来自与上述相同的路线)正是我们所需要的,并且该黑色线是使用PCA生成的。

以上工作吗?有没有比我们能做的更好的事情来自动化生成新功能(线性类型或其他)?我也想到过神经网络和内核,但是我有直觉,它们在计算方面会非常昂贵。

machine-learning pca gaussian anomaly-detection
1个回答
0
投票

您正在寻找的问题家族称为dimensionality reduction。是的,PCA是解决此类问题的默认方法,完全类似于线性回归是默认的回归方法。

但是,它找不到x_2 / x_1形式的特征,因为那是非线性变换。它会发现的特征将采用a_1 x_1 + a_2 x_2的形式(以均心为中心的坐标)。有许多方法可以让您自动查找此类功能。您提到的内核PCA就是这样一种方法,尽管像所有内核方法一样,它不会显式搜索功能,而只是从预定义的集合中选择最有用的功能。在可以搜索无限类非线性特征的方法中,我个人最喜欢的方法是genetic programming。它主要关注回归,但是将其应用于降维应该很简单。请注意,它不是开箱即用的东西,并且需要反复试验。如果您决定采用该路线,请参考以下有用的资源:34

搜索大量非线性的方法本质上在计算上是昂贵的。如果性能至关重要,请研究生成分布的系统,确定可能有用的非线性类别,并使用诸如内核PCA之类的特征进行选择。或采用类似3中所述的方法,通过缓慢但自动的研究从数据中提取有用的特征,然后冻结特征搜索,然后让位于其顶部的线性选择器为每个特定的测量决策。 >

© www.soinside.com 2019 - 2024. All rights reserved.