我有一个数据集,描述中写着<pesofit
(样本权重)已被插入。建议使用样本权重以获得无偏估计。 >>
这里是样品
> head(data_shape, 10)
# A tibble: 10 × 5
tpens ireg pens_PPP apqual pesofit
<dbl> <int> <dbl> <int> <dbl>
1 1800 18 21.1 15 0.380
2 900 5 8.91 16 1.45
3 500 13 5.40 16 0.869
4 1211 13 13.1 15 0.238
5 2100 13 22.7 15 0.238
6 700 8 6.43 15 0.882
7 2000 9 17.9 15 1.25
8 1200 5 11.9 15 1.67
9 2000 4 17.8 15 3.37
10 880 15 9.62 15 1.69
tpens
= 就是工资ireg
= 是个人居住的地理区域代码pesofit
= 是样本重量我正在使用这个
pesofit
来计算加权均值以及加权线性回归。
我还需要统计每个地理区域的工资数量(
ireg
)。我也应该用它来计数吗?还是仅计算 ireg
的每个值的行数就足够了?
那我该怎么办?