您怎么知道您的数据集是否遭受高维问题?

问题描述 投票:-1回答:1

[似乎有许多降低维数的技术(pca,svd等),以逃避维数的诅咒。但是,您怎么知道您的数据集实际上存在高维问题呢?有没有像可视化这样的最佳实践,或者甚至可以使用KNN找出答案?

我有一个具有99个要素和1个连续标签(价格)和30,000个实例的数据集。

python machine-learning dimensionality-reduction
1个回答
-1
投票

维数诅咒是指决定要素维数与数据大小之间关系的问题。已经指出,随着您的功能大小/尺寸的增长,成功建模问题的数据量也会成倍增长。

问题实际上是在您的数据呈指数增长时出现的。因为您必须考虑如何正确处理它(需要存储/计算能力)。因此,我们通常会尝试找出问题所需尺寸的正确大小(可能使用交叉验证),然后仅选择这些特征。另外,请记住,使用大量功能会带来过度拟合的高风险。

您可以使用特征选择或特征提取来减少尺寸。LASSO可以用于特征提取,而PCA和LDA可以用于特征提取。

© www.soinside.com 2019 - 2024. All rights reserved.