浏览器和版本应如何成为热门编码?

问题描述 投票:-1回答:1

我需要为一个热编码输出浏览器和版本数据。我们提出了一些选择(概述如下)。我做了一些搜索,但找不到任何有类似数据的人的例子(搜索Kaggle DatasetsDuckDuckGo)。

  • 选项1:一列,浏览器名称和版本连接在一起 例如“browser_version”列值:“Safari-1.2.3”,“Chrome-4.5.6”,“Firefox-7.8.9”
| order_id | browser_version |
| 1        | Safari-1.2.3    |
| 2        | Chrome-4.5.6    |
| 3        | Firefox-7.8.9   |
  • 选项2:两列:一列具有浏览器名称,另一列具有浏览器版本 例如“浏览器”(第1列)值:“Safari”,“Chrome”,“Firefox” 例如“版本”(第2列)值:“1.2.3”,“4.5.6”,“7.8.9”
| order_id | browser | version |
| 1        | Safari  | 1.2.3   |
| 2        | Chrome  | 4.5.6   |
| 3        | Firefox | 7.8.9   |
  • 选项3:两列:一列具有浏览器名称,另一列具有连接在一起的浏览器名称和版本 例如“浏览器”(第1列)值:“Safari”,“Chrome”,“Firefox” 例如“browser_version”(第2列)值:“Safari-1.2.3”,“Chrome-4.5.6”,“Firefox-7.8.9”
| order_id | browser | browser_version |
| 1        | Safari  | Safari-1.2.3    |
| 2        | Chrome  | Chrome-4.5.6    |
| 3        | Firefox | Firefox-7.8.9   |

为一个热编码设置数据值(假设CSV文件,列)的最有效方法是什么?

我想正确的答案可能是测试每个选项并检查结果,但我认为这可能是之前已经完成的事情所以我认为这值得一问。

machine-learning one-hot-encoding
1个回答
1
投票

我会使用第一个选项。它会给每对索引(浏览器|版本)。

第二个选项将不同浏览器的版本号放在同一列中,而这些数字不具有可比性。您可以将Chrome版本号与其他Chrome版本号进行比较,但不能将Chrome版本号与Firefox版本号进行比较。

第三个选项包含第一个选项,附加冗余数据。

© www.soinside.com 2019 - 2024. All rights reserved.