在保留原始尺寸的同时拆分测试火车

问题描述投票：0回答：0

我正在尝试制作一个推荐算法，其中我采用大小为 610x9724（610 个用户 x 9724 部电影）的数据集，将数据集的 80% 的非空值放入训练中，将剩余的 20% 的非空值放入测试集，同时用 null 替换训练中移除的 20% 值（与原始数据集相比），同样用 null 替换测试集中移除的值。

然后我会在测试集 (610x9724) 上使用 SVD 来预测测试集中删除的值。

我曾尝试使用 sklearn train_test_split，但拆分后，训练集变为 549x9724 维度，验证集变为 61x9724，这使得预测集和测试集之间的 RMSE 变得困难。

data = df.pivot_table(index='userId', columns='movieId', values='rating')

data_train, data_valid = model_selection.train_test_split(
    data, test_size=0.1, random_state=42
)

print(data.shape) # (610, 9724)
print(data_train.shape) # (549, 9724)
print(data_valid.shape) # (61, 9724)

python scikit-learn dataset svd train-test-split

最新问题

© www.soinside.com 2019 - 2024. All rights reserved.