比较两个数据集（我零经验）

Question

我有 2 个数据框：NPI 和 COMPLETE。 NPI 有 6921 个 obs。 164 个变量，完整的是 116 个变量的 16412 个观测值。 NPI 是完成某个测试的同一 COMPLETE 参与者池的数据子集。

RID 是参与者 ID，是他们共有的列。如何合并两者，以便可以将仅在 COMPLETE 中找到的列的值与 NPI 中的列进行比较（如何将它们组合起来，以便可以删除在 NPI 中没有相应值的每个 RID 行？）我正在尝试运行线性回归。

到目前为止，我已经尝试过左合并，但这并没有对齐 RID

COMPLETE<-COMPLETE.merge(NPI, on=‘risk’, how=left)

错误信息

Answer 1

merged_data <- merge(NPI, COMPLETE, by = "RDI ID", all.x = TRUE)

在此代码中，all.x = TRUE 指定您要保留 NPI 数据集中的所有行，并且仅保留 COMPLETE 数据集中与 RDI ID 匹配的行。

然后过滤掉数据。

filtered_data <- merged_data[!is.na(merged_data$NPI), ]

这将删除包含 NA 的行。