R如何识别哪一列是我的数据集中的唯一标识符?

问题描述 投票:0回答:1

我对R相当陌生,在处理参与者的唯一标识符时遇到了麻烦。我把我的数据集从Stata导入到R中,一切正常。所有的变量都出现了,包括我的ID变量。然而,我试图运行PCA,但奇怪的是,PCA使用我的ID变量作为一个项目变量。有人知道问题出在哪里吗?目前,ID变量是 chr. 我以为R会自动识别参与者的唯一ID?

r stata pca identifier id
1个回答
0
投票

R并没有像SQL主键那样有一个唯一标识符的概念。相反,你有几个选择。你可以像这样把标识符从你输入PCA的数据中排除。

df_for_pca = df[, 2:ncol(df)] # assuming id is the first column of df

你也可以添加行名,这些行名不被大多数函数视为数据,但仍会被保留,以备不时之需。

rownames(df) = df[, 1] # assuming id is the first column of df
df[, 1] = NULL

编辑:一个来自评论的解决方案,使用包 textshapetibble:

# assuming the id column is called 'my_id'
df_for_pca = df %>% remove_rownames() %>% column_to_rownames(var = 'my_id')
© www.soinside.com 2019 - 2024. All rights reserved.