所以我想找出从事相同职业和不同职业的夫妻之间的收入差异。我现在有用于分析的职业和家庭代码的个人级别数据。
但我不知道如何过滤掉数据,以便我可以将每两个人分组在一个 CBSERIAL(家庭)变量中,同时还具有相同的 US2021A_SOCP 变量
我的想法是为此使用一个for循环,在每两个元素之间进行迭代。但我所能找到的只是 setequal 函数,这并不是我所需要的。
如果您可以使用
dput(head(mydf))
提供数据,那将很有帮助,但大致以下内容应该有效:
library(dplyr)
mydf |>
group_by(CBSERIAL) |>
filter(length(unique(US2021A_SOCP)) == 1) |>
ungroup()