Python:编码作为值列表的分类变量

问题描述 投票:0回答:1

我有以下数据:

Rank    Platforms        Technology

high    Windows||Linux   Unity
high    Linux             
low     Windows          Unreal 
low     Linux||MacOs     GameMakerStudio||Unity||Unreal
low                      GameMakerStudio

PlatformsTechnology都是分类变量。这里的问题是它们可以有一个或Empty,或者尤其是多个值,例如GameMakerStudio||Unity||Unreal。我正在建立逻辑回归模型来预测Rank数据。

我正在尝试为模型编码这些变量。但是,我没有找到任何针对列表类型分类值的解决方案。我已经阅读了此页Encoding Categorical Variables,发现One-hot编码关系最密切,但仍然无法解决我的问题。

我当然可以手动对其进行编码。例如,Platforms列大约有7个不同的平台值,如果Platforms = Windows||Linux,则可以设置2列is_windows = trueis_linux = true。但是对于Technology列,有21个不同的值。

有没有一种自动编码的方法?

python logistic-regression categorical-data
1个回答
0
投票

您在问题中从未提及熊猫,但我想这就是您所使用的。如果是这样,则您提到的链接具有响应:get_dummies

© www.soinside.com 2019 - 2024. All rights reserved.