聚类的特征选择

问题描述投票：0回答：1

Pandas中是否有用于用于群集的非监督特征选择的设施？

例如，考虑我们正在使用KMeans算法，我们需要找到重要的功能。

输入应为数据集，聚类数
输出应该是要素的选定子集。

我检查了https://scikit-learn.org/stable/modules/generated/sklearn.feature_selection.VarianceThreshold.html方差阈值，但是，我想知道是否为此使用任何算法或过程？

感谢您的专家建议。

python machine-learning cluster-analysis feature-selection

1个回答

0
投票

除了聚类算法，还有一些不同的技术降维]和主成分分析（PCA）以减少特征集。

这些技术通过从原始特征的线性组合中制成新的合成特征，然后丢弃次要特征，从而降低了尺寸。

特征选择使用方差和相关性来提取特征的最佳子集，而降维和PCA使用特征值和特征向量从现有特征中重新创建新特征。

浏览它们，可能会有用。

[编辑]

功能选择方法：制作关联图，删除任何高度关联的特征。再次制作关联图，直到没有两个特征显示出高关联。两个高度相关的变量导致多重共线性问题。

多重共线性：https://stats.stackexchange.com/questions/1149/is-there-an-intuitive-explanation-why-multicollinearity-is-a-problem-in-linear-r

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.