标签因素(ML的编码)

问题描述 投票:-2回答:1

有一种标记分类变量的方法:例如,

listings$require_guest_phone_verification <- factor(listings$require_guest_phone_verification,
                                               levels = c('f', 't'),
                                               labels = c(0, 1))

这是我编码的require_guest_phone_verification列作为示例。与此类似,有一个名称字段,其中有许多类型的名称,无法统计定义。这些必须是一些动态的方式来做到这一点。

我们需要按照动态方式处理关卡和标签。它听起来很简单但总是有一些错误。我已将此用于以下级别:

 levels = c(paste(shQuote(levels(listings$name)), collapse=", "))

如果有人对水平和标签有更好的方法,请建议。

在此处附加名称列截图(仅显示结束条目):

r data-science
1个回答
0
投票

名称列中有很多数据,由于数字编码,几乎不可能。我们可以通过虚拟变量来做到这一点。

 dummy.data.frame(listings, names=c("name"), sep=",")
© www.soinside.com 2019 - 2024. All rights reserved.