我有 2 个数据框:NPI 和 COMPLETE。 NPI 有 6921 个 obs。 164 个变量,完整的是 116 个变量的 16412 个观测值。 NPI 是完成某个测试的同一 COMPLETE 参与者池的数据子集。
RID 是参与者 ID,是他们共有的列。如何合并两者,以便可以将仅在 COMPLETE 中找到的列的值与 NPI 中的列进行比较(如何将它们组合起来,以便可以删除在 NPI 中没有相应值的每个 RID 行? )我正在尝试运行线性回归。
到目前为止,我已经尝试过左合并,但这并没有对齐 RID
COMPLETE<-COMPLETE.merge(NPI, on=‘risk’, how=left)
错误信息
merged_data <- merge(NPI, COMPLETE, by = "RDI ID", all.x = TRUE)
在此代码中,all.x = TRUE 指定您要保留 NPI 数据集中的所有行,并且仅保留 COMPLETE 数据集中与 RDI ID 匹配的行。
然后过滤掉数据。
filtered_data <- merged_data[!is.na(merged_data$NPI), ]
这将删除包含 NA 的行。