用于处理分类变量的Python策略

问题描述 投票:0回答:1

我目前正在从事班级为binary classificationimbalanced任务。

我具有以下具有不同级别的categorical属性:

time_slot: 8 levels
product_type: 3 levels
state: 40 levels
due_day: 6 levels (Mon - Sat)
lead_time: numerical in days (0-100)

现在,我打算使用三种算法开始:

Logistic Regression, Decision Tree and Random Forest

对于分类变量,哪种编码策略最好,我感到困惑?

LabelEncoder, OneHot, BinaryEncoding?

而且,我正在考虑为lead_time创建箱柜>

任何指针/技巧都会有用。

我目前正在从事班级不平衡的二进制分类任务。我具有以下不同级别的分类属性:time_slot:8个级别product_type:3个级别...

python python-3.x pandas scikit-learn classification
1个回答
0
投票

我相信您的问题没有简明的答案,尤其是因为您的数据集的具体细节未知。通常,尝试不同的方法并查看哪种方法在特定情况下最有效是一个好主意。使用scikit-learn,您可能想看一下category_encoders库。

热门问题
推荐问题
最新问题