与cross_validate和迭代Kfolds不同的RMSE

Question

我想编写自己的函数进行交叉验证，因为在这种情况下我不能使用cross_validate。

如果我错了，请告诉我，但是我的交叉验证代码是：

cv = cross_validate(elastic.est,X,y,cv=5,scoring='neg_mean_squared_error')

输出：

{'fit_time': array([3.90563273, 5.272861  , 2.19111824, 6.42427135, 5.62084389]),
 'score_time': array([0.05504966, 0.06105542, 0.0530467 , 0.06006551, 0.05603933]),
 'test_score': array([-0.00942235, -0.01220626, -0.01157624, -0.00998556, -0.01144867])}

所以我已经完成了此操作来计算RMSE。

math.sqrt(abs(cv["test_score"]).mean())

结果始终在0.104

然后，我编写了以下函数来循环kFolds，而我总是得到低得多的RMSE得分（它的运行速度快10倍）

def get_rmse(y_true,y_pred):    
    score = math.sqrt(((y_pred-y_true) ** 2).mean())
    return score

listval=[]

kf = KFold(n_splits=5,shuffle=True)

for train_index, test_index in kf.split(X,y):

    Xx = np.array(X)
    yy = np.array(y)

    X_train, X_test = Xx[train_index], Xx[test_index]
    y_train, y_test = yy[train_index], yy[test_index]

    elastic.est.fit(X_train,y_train)
    preds = elastic.est.predict(X_test)
    listval.append(get_rmse(y_test,preds))

np.mean(listval)

结果为0.0729，并且始终落在该值附近。

我想念的是什么？相同的数据，相同的估计量，相同的折痕数量？

Answer 1

您观察到的差异来自事实，您对最终数字的计算方式不同：

对于cross_validate输出，您首先平均MSE倍，然后取平方根。
对于自定义实现，首先要扎根，然后才取平均值。

当然，在一般情况下，均值的均方根不等于均根的均方根。

与cross_validate和迭代Kfolds不同的RMSE

问题描述投票：0回答：1

1个回答

最新问题

与cross_validate和迭代Kfolds不同的RMSE

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1