我有一个包含几列不同数据的数据框,我想获取不同变量的频率,检查数据的频率如何根据一个或两个参数而变化,并比较从已知或可用的ids
到缺少的变化我有ids
的地方是NA
。
对象Id
始终是已知的,但在某些情况下rq_ind
丢失并且很有趣。
基本上,我需要获得可用对象的Nieseln区域类/全部Nielsen区域(丢失和不丢失的对象(这是inq_onr_id==NA
,但它们的object_id
可用]]
rq_id , rq_object_id , inq_onr_id, inq_id, Nielsen class, age_class, revnue-class , employee_class
157467 19750137 19750137 NA 3 3 4 2
157467 19750137 19750137 NA 3 3 4 2
423008 19750137 NA NA 3 3 4 2
423008 19750137 NA NA 3 3 4 2
157467 19750137 NA NA 3 2 4 2
B1_fourth3month19short<-data.frame(rq_id,
rq_object_id,
inq_onr_id,inq_id,
nielsen_area,Employeeclass)
所有信息原则上都是因素。
[我想了解的是找出在fre(rq_object_id)
丢失而onr-id
可用的情况下onr _id
与Nieslen区域的变化。
table
:out <- table(df[,c(2,3,5)],useNA = "ifany")
其中df
是您的初始数据帧。输出:
> out , , Nielsen_class = 3 inq_onr_id rq_object_id 19750137 <NA> 19750137 2 3
要获取每一行的百分比,请执行以下操作:
out.percent <- prop.table(table(df[,c(2,3,5)],useNA = "ifany"))*100
输出百分比:
> out.percent , , Nielsen_class = 3 inq_onr_id rq_object_id 19750137 <NA> 19750137 40 60