我对机器学习非常陌生,这是我作为大学课程的一部分正在从事的第一个项目。我选择了英国足球比赛。我选择使用随机森林。
使用不同的来源,我成功地获得了 20 年的上述比赛数据,清理了数据并构建了我的模型。
但是,我被困住了。我如何真正让模型对未来的比赛进行预测?
谢谢
我尝试加载模型,然后使用仅填充“日期”、“Home_Team”和“Away_Team”列的 CSV 文件,将其他列留空,以便模型预测这些值 - 这是执行此操作的正确方法吗?
更新:
谢谢 - 请参阅用于构建模型的代码;
from sklearn.ensemble import RandomForestClassifier
train = matches[matches["Date"] < '2012-06-01']
test = matches[matches["Date"] > '2012-06-01']
predictors = ['Home_Team', 'Away_Team', 'HT_Winner', 'FT_Winner', 'match_result', 'ht_match_result', 'HomeShots', 'AwayShots', 'HomeCorners', 'AwayCorners']
rf.fit(train[predictors], train["FT_Winner"])
preds = rf.predict(test[predictors])
用于未来预测的新 CSV:
import pandas as pd
new_data_df = pd.read_csv(..)
predictions = model.predict(new_data_df)
如果可以的话,请添加一个示例数据集,比如您用于预测的特征是什么,它将帮助任何人理解这些特征并相应地指导您