聚类的特征选择

问题描述 投票:0回答:1

Pandas中是否有用于用于群集的非监督特征选择的设施?

例如,考虑我们正在使用KMeans算法,我们需要找到重要的功能。

  • 输入应为数据集,聚类数
  • 输出应该是要素的选定子集。

我检查了https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html方差阈值,但是,我想知道是否为此使用任何算法或过程?

感谢您的专家建议。

python machine-learning cluster-analysis feature-selection
1个回答
0
投票

除了聚类算法,还有一些不同的技术降维]和主成分分析(PCA)以减少特征集。

这些技术通过从原始特征的线性组合中制成新的合成特征,然后丢弃次要特征,从而降低了尺寸。

特征选择使用方差和相关性来提取特征的最佳子集,而降维和PCA使用特征值和特征向量从现有特征中重新创建新特征。

浏览它们,可能会有用。

[编辑]

功能选择方法:制作关联图,删除任何高度关联的特征。再次制作关联图,直到没有两个特征显示出高关联。两个高度相关的变量导致多重共线性问题。

多重共线性:https://stats.stackexchange.com/questions/1149/is-there-an-intuitive-explanation-why-multicollinearity-is-a-problem-in-linear-r

© www.soinside.com 2019 - 2024. All rights reserved.