我需要为一个热编码输出浏览器和版本数据。我们提出了一些选择(概述如下)。我做了一些搜索,但找不到任何有类似数据的人的例子(搜索Kaggle Datasets和DuckDuckGo)。
| order_id | browser_version |
| 1 | Safari-1.2.3 |
| 2 | Chrome-4.5.6 |
| 3 | Firefox-7.8.9 |
| order_id | browser | version |
| 1 | Safari | 1.2.3 |
| 2 | Chrome | 4.5.6 |
| 3 | Firefox | 7.8.9 |
| order_id | browser | browser_version |
| 1 | Safari | Safari-1.2.3 |
| 2 | Chrome | Chrome-4.5.6 |
| 3 | Firefox | Firefox-7.8.9 |
为一个热编码设置数据值(假设CSV文件,列)的最有效方法是什么?
我想正确的答案可能是测试每个选项并检查结果,但我认为这可能是之前已经完成的事情所以我认为这值得一问。
我会使用第一个选项。它会给每对索引(浏览器|版本)。
第二个选项将不同浏览器的版本号放在同一列中,而这些数字不具有可比性。您可以将Chrome版本号与其他Chrome版本号进行比较,但不能将Chrome版本号与Firefox版本号进行比较。
第三个选项包含第一个选项,附加冗余数据。