无论特征如何,SVM 模型总是预测相同的值

问题描述 投票:0回答:1

我使用 SVM 来预测误差的变化是好还是坏,即(好 = 负值,好 = 转换为布尔值的正值)。

现在,我将数据按类别分开。每个类别至少有 10 行或更多行。

在数据集中,我有多组特征。 (26 列乘以 9)

我的“问题”是,基于模型中的特征集进行预测的准确性几乎没有差异。

尽管每个类别的准确度有所不同,但在一个类别内,几乎没有差异。

我的特征可以看作是26列上的多项式(抛物线),因此每一行的数据点都具有抛物线的特征。考虑到这一点,我还必须采取其他方法吗?

svm
1个回答
0
投票

每个类别至少有 10 行或更多行。

在数据集中,我有多组特征。 (26 列乘以 9)

SVM 很容易过拟合,尤其是当样本很少且特征很多时。对于您描述的数据集来说,两者似乎都是潜在问题。像

LogisticRegression
/
LogisticRegressionCV
LinearSVC
这样的更简单的模型可能会更好地概括。

我的“问题”是,基于模型中的特征集进行预测的准确性几乎没有差异。

虽然每个类别的准确度有所不同,但在一个类别内,几乎没有差异。

如果我理解正确的话,您正在为 9 个特征集中的每一个拟合一个模型,并且您期望其中一些模型比其他模型做得更好?您是否发现对于任何给定类别,所有模型的性能都相同,但不同类别的性能不同?

我的特征可以看作是26列上的多项式(抛物线),因此每一行的数据点都具有抛物线的特征。考虑到这一点,我还必须采取其他方法吗?

也许您可以将 26 个特征压缩为仅表征多项式的几个系数?例如,如果是二次曲线,您可以拟合一条曲线来确定二次曲线的 3 个系数,并为每个样本使用这些值而不是 26 个特征。这降低了输入数据的维度,同时保留其显着特征(如果它二次),这有助于减轻小数据集的过度拟合。

© www.soinside.com 2019 - 2024. All rights reserved.