比较两个数据集(我零经验)

问题描述 投票:0回答:1

我有 2 个数据框:NPI 和 COMPLETE。 NPI 有 6921 个 obs。 164 个变量,完整的是 116 个变量的 16412 个观测值。 NPI 是完成某个测试的同一 COMPLETE 参与者池的数据子集。

RID 是参与者 ID,是他们共有的列。如何合并两者,以便可以将仅在 COMPLETE 中找到的列的值与 NPI 中的列进行比较(如何将它们组合起来,以便可以删除在 NPI 中没有相应值的每个 RID 行? )我正在尝试运行线性回归。

到目前为止,我已经尝试过左合并,但这并没有对齐 RID

COMPLETE<-COMPLETE.merge(NPI, on=‘risk’, how=left)

错误信息

r dataframe data-cleaning
1个回答
0
投票
merged_data <- merge(NPI, COMPLETE, by = "RDI ID", all.x = TRUE)

在此代码中,all.x = TRUE 指定您要保留 NPI 数据集中的所有行,并且仅保留 COMPLETE 数据集中与 RDI ID 匹配的行。

然后过滤掉数据。

filtered_data <- merged_data[!is.na(merged_data$NPI), ]

这将删除包含 NA 的行。

© www.soinside.com 2019 - 2024. All rights reserved.