我有一个位置之间流的数据集,假设它们是50个位置,但是对的数量甚至没有,因为某些位置没有流。我想为每个观察对创建ID(w_id和h_id)
谢谢。
所需的输出
w_code h_code w_id h_id
295101011001003 291892204451015 1 1
295101011001003 295101011001003 1 2
295101011001003 291892202003011 1 3
295101011001025 295101021003001 2 1
295101011001025 295101011001025 2 2
295101011001026 291879507003038 3 1
295101011001026 190130007001013 3 2
295101011001026 295101105001027 3 3
295101011001026 291892126002008 3 4
295101011001026 291892126001005 3 5
295101011001029 291892199006006 4 1
295101011002007 295101011002015 5 1
295101011002014 295101011002016 6 1
295101011002014 295101011001003 6 2
295101011002016 295101011001007 7 1
295101011002030 295101255001008 8 1
可通过Stata访问的文档包括this paper on composite categorical variables和this paper on handling dyadic data。 Stata命令search
会导致产生这些论文,除了查找和搜索的技巧是考虑正确的关键字。
[在您的情况下,自然会出现问题,例如,对(1,2)是否真的与(2,1)相同,并且对于流量,我的猜测是否。在数学中,抽象通常是解决问题的关键;在统计计算中,一些具体性可能使问题更清晰。也许h
表示丈夫,w
表示妻子,也许不是。假设(1,2)和(2,1)完全不同,则可以通过
egen newid = group(w_id h_id)
并且对于少量的标识符-您提到了50-要求标记值没有困难,因此使用
egen newid = group(w_id h_id), label
对(1,1)将被映射到值1
和值标签1 1
。
由于此解决方案并非立即显而易见,因此对help egen
的研究可能会揭示出许多可能对数据管理有用的工具;有些是直接统计的。
关于将Billy, Bob
视为Bob, Billy
的标识符对,请参见上面链接的第二篇论文。对于OP是否适用还不清楚,但将来某些其他人可能会使用。