我是该领域的新手,我正在做一些测试来学习机器学习技术。
我特别想创建一个小模型来预测网球比赛。 数据集如下(大约 500 行)。
我正在尝试决策树。我正在使用 python 的
sklearn library
。由于树需要数字参数才能通过 LabelEncoder
运行,我转换了不包含字符串的列(我还小心地确保“胜利者”和“失败者”列中玩家的相同名称被转换为同样的方式)。
此时我有疑问。这种几乎“随机”的转换是否会影响模型的预测精度?例如,我想象,如果某个强玩家被赋予高价值,而同样的事情发生在一个差玩家身上,那么模型可能会做出错误的预测,我想..?
我想知道我的怀疑是否合理,如果是的话,有没有办法防止这种情况发生?或者在任何情况下一般要维持各种数据之间的合理关系。
对于字符串参数,需要将其转换为分类数字特征,例如:Medvedev D. -> 1、Djokovic N. -> 2 等。 您分配的数字顺序不必有任何意义。
所有特征都是数字后,您可以开始拟合和预测