我有一个656因素的篮球统计数据集。我使用逻辑回归分类器通过从团队2统计数据中减去团队1统计数据来预测赢家和输家(团队1胜或团队2胜)。除了标准化之外,如何提高测试集的准确性以使其更接近训练集的准确性或仅提高准确性?
我认为归一化是一种可能的解决方案,但由于我正在做统计数据的差异,因此大多数值都在相同的范围内
X = final_data_array[:,:656]
Y = final_data_array[:,656]
X_train, X_test, Y_train, Y_test = train_test_split(X, Y)
logistic = LogisticRegression(solver='lbfgs', max_iter=4000000, multi_class='multinomial').fit(X_train, Y_train)
print(logistic.score(X_test, Y_test))
print(logistic.score(X_train, Y_train))
0.7818791946308725
0.9069506726457399
您可以尝试对数据集进行一些特征工程,除了标准化数据集和检查准确性之外。我还建议你尝试其他分类算法,如xgbclassifier,随机森林分类器等。