无论特征如何，SVM 模型总是预测相同的值

Question

我使用 SVM 来预测误差的变化是好还是坏，即（好 = 负值，好 = 转换为布尔值的正值）。

现在，我将数据按类别分开。每个类别至少有 10 行或更多行。

在数据集中，我有多组特征。（26 列乘以 9）

我的“问题”是，基于模型中的特征集进行预测的准确性几乎没有差异。

尽管每个类别的准确度有所不同，但在一个类别内，几乎没有差异。

我的特征可以看作是26列上的多项式（抛物线），因此每一行的数据点都具有抛物线的特征。考虑到这一点，我还必须采取其他方法吗？

Answer 1

每个类别至少有 10 行或更多行。

在数据集中，我有多组特征。（26 列乘以 9）

SVM 很容易过拟合，尤其是当样本很少且特征很多时。对于您描述的数据集来说，两者似乎都是潜在问题。像

LogisticRegression

/

LogisticRegressionCV

或

LinearSVC

这样的更简单的模型可能会更好地概括。

我的“问题”是，基于模型中的特征集进行预测的准确性几乎没有差异。

虽然每个类别的准确度有所不同，但在一个类别内，几乎没有差异。

如果我理解正确的话，您正在为 9 个特征集中的每一个拟合一个模型，并且您期望其中一些模型比其他模型做得更好？您是否发现对于任何给定类别，所有模型的性能都相同，但不同类别的性能不同？

我的特征可以看作是26列上的多项式（抛物线），因此每一行的数据点都具有抛物线的特征。考虑到这一点，我还必须采取其他方法吗？

也许您可以将 26 个特征压缩为仅表征多项式的几个系数？例如，如果是二次曲线，您可以拟合一条曲线来确定二次曲线的 3 个系数，并为每个样本使用这些值而不是 26 个特征。这降低了输入数据的维度，同时保留其显着特征（如果它是二次），这有助于减轻小数据集的过度拟合。