我是新来machine learning
我的问题是:
我们是否需要编码一个因变量y,如果它包含三个班段1,2,3,我想知道是否有需要因变量进行编码时它不包含任何
OneHotEncoder将创建列k
号码,如果有k
类的单一变量。
例如:它会创建2
变量,如果在数据集中的性别值Male/Female
,它将创建3
变量如果性别值male/Female/PreferNotToSay
现在,你不想在你的谓词y
多个变量,因此,更好地与LabelEncoder
(从sklearn.preprocessing)或一些保持完好的维机制去。
我没有明确得到什么因变量在你的情况。
下面是一个什么热做编码的例子:
之前:
name gender
a M
b F
c O
后
name M F O
a 1 0 0
b 0 1 0
c 0 0 1