如何管理数据集中的字符串参数

问题描述 投票:0回答:1

我是该领域的新手,我正在做一些测试来学习机器学习技术。

我特别想创建一个小模型来预测网球比赛。 数据集如下(大约 500 行)。

我正在尝试决策树。我正在使用 python 的

sklearn library
。由于树需要数字参数才能通过
LabelEncoder
运行,我转换了不包含字符串的列(我还小心地确保“胜利者”和“失败者”列中玩家的相同名称被转换为同样的方式)。

此时我有疑问。这种几乎“随机”的转换是否会影响模型的预测精度?例如,我想象,如果某个强玩家被赋予高价值,而同样的事情发生在一个差玩家身上,那么模型可能会做出错误的预测,我想..?

我想知道我的怀疑是否合理,如果是的话,有没有办法防止这种情况发生?或者在任何情况下一般要维持各种数据之间的合理关系。

machine-learning scikit-learn dataset decision-tree label-encoding
1个回答
0
投票

对于字符串参数,需要将其转换为分类数字特征,例如:Medvedev D. -> 1、Djokovic N. -> 2 等。 您分配的数字顺序不必有任何意义。

所有特征都是数字后,您可以开始拟合和预测

© www.soinside.com 2019 - 2024. All rights reserved.