何时或为何将数字变量转换为因数?

问题描述 投票:0回答:2

我在R语言方面还很陌生,我自己也要学习。我有一个包含43个变量的数据集,我想预测一个主题。有些是数字变量,有些是因子变量。

问题是,我不知道何时应该将因子转换为数值,反之亦然。我在互联网上发现,如果变量始终采用整数值且范围较小,则不应将其保留为数字。 (例如,如果值始终在1到7之间)。

我的变量中的一个是“ NSM”,它代表每天午夜以来的秒数。该值是整数和离散值(61200 61800 62400 63600 64200 65400 66000 66600 68400 69000 69600 70800 72000 72600 73200等,您可以观察到有600步长)。他们从0到85800。

因此,我想征询比我更有经验的人的意见(我有0)。我应该保留NSP numerci还是将其转换为因子,然后按级别对因子值进行分组(否则,我将具有144个级别,那将太多并且不相关)

谢谢,

r prediction forecasting
2个回答
1
投票

通常,只有满足以下一个或多个条件时,我才将变量转换为因数:

  • 变量的值代表某种形式的分组,即变量本质上是分类的。
  • 可以节省大量内存,通常是使用字符变量标识组级别的情况。
  • 该变量本质上是数值的,但高度非线性,没有比将其转换为选择了一个或两个有意义的切点的因子更好的方法输入模型了。

但是,操纵因子变量可能比字符或整数更复杂,因此除非内存压力迫使我动手,否则我倾向于将因子分解保存到最后。


0
投票
[ )。这使我们避免了字符区分大小写或拼写错误等比较错误。
© www.soinside.com 2019 - 2024. All rights reserved.