我有以下数据:
Rank Platforms Technology
high Windows||Linux Unity
high Linux
low Windows Unreal
low Linux||MacOs GameMakerStudio||Unity||Unreal
low GameMakerStudio
Platforms
和Technology
都是分类变量。这里的问题是它们可以有一个或Empty,或者尤其是多个值,例如GameMakerStudio||Unity||Unreal
。我正在建立逻辑回归模型来预测Rank
数据。
我正在尝试为模型编码这些变量。但是,我没有找到任何针对列表类型分类值的解决方案。我已经阅读了此页Encoding Categorical Variables,发现One-hot编码关系最密切,但仍然无法解决我的问题。
我当然可以手动对其进行编码。例如,Platforms
列大约有7个不同的平台值,如果Platforms = Windows||Linux
,则可以设置2列is_windows = true
和is_linux = true
。但是对于Technology
列,有21个不同的值。
有没有一种自动编码的方法?
您在问题中从未提及熊猫,但我想这就是您所使用的。如果是这样,则您提到的链接具有响应:get_dummies