我在R语言方面还很陌生,我自己也要学习。我有一个包含43个变量的数据集,我想预测一个主题。有些是数字变量,有些是因子变量。
问题是,我不知道何时应该将因子转换为数值,反之亦然。我在互联网上发现,如果变量始终采用整数值且范围较小,则不应将其保留为数字。 (例如,如果值始终在1到7之间)。
我的变量中的一个是“ NSM”,它代表每天午夜以来的秒数。该值是整数和离散值(61200 61800 62400 63600 64200 65400 66000 66600 68400 69000 69600 70800 72000 72600 73200等,您可以观察到有600步长)。他们从0到85800。
因此,我想征询比我更有经验的人的意见(我有0)。我应该保留NSP numerci还是将其转换为因子,然后按级别对因子值进行分组(否则,我将具有144个级别,那将太多并且不相关)
谢谢,
通常,只有满足以下一个或多个条件时,我才将变量转换为因数:
但是,操纵因子变量可能比字符或整数更复杂,因此除非内存压力迫使我动手,否则我倾向于将因子分解保存到最后。