如何管理数据集中的字符串参数

Question

我是该领域的新手，我正在做一些测试来学习机器学习技术。

我特别想创建一个小模型来预测网球比赛。数据集如下（大约 500 行）。

我正在尝试决策树。我正在使用 python 的

sklearn library

。由于树需要数字参数才能通过

LabelEncoder

运行，我转换了不包含字符串的列（我还小心地确保“胜利者”和“失败者”列中玩家的相同名称被转换为同样的方式）。

此时我有疑问。这种几乎“随机”的转换是否会影响模型的预测精度？例如，我想象，如果某个强玩家被赋予高价值，而同样的事情发生在一个差玩家身上，那么模型可能会做出错误的预测，我想..？

我想知道我的怀疑是否合理，如果是的话，有没有办法防止这种情况发生？或者在任何情况下一般要维持各种数据之间的合理关系。

Answer 1

对于字符串参数，需要将其转换为分类数字特征，例如：Medvedev D. -> 1、Djokovic N. -> 2 等。您分配的数字顺序不必有任何意义。

所有特征都是数字后，您可以开始拟合和预测