比较逻辑条件时如何产生整洁的摘要

问题描述 投票:0回答:1

请考虑以下数据框:

set.seed(123)
dat <- data.frame(Region = rep(c("a","b"), each=100),
                  State =rep(c("NY","MA","FL","GA"), each = 50),
                  Loc = rep(letters[1:20], each = 5),
                  ID = 1:200,
                  count1 = sample(4, 200, replace=T),
                  count2 = sample(4, 200, replace=T))

单个观察结果用不明确的ID表示。每个观察值有三个分组变量:RegionStateLoc。可以说我知道以下条件成立:-count1等于1时,count2应该等于2-count1等于2时,count2应该等于4-count1等于3时,count2应该等于1-count1等于4时,count2等于3

我想回答以下类型的问题:1. RegionState]的每个级别中有多少个观察值属于每个分组变量(Loccount1count2)>

  1. ID属于哪个级别的count1count2(以及这些ID属于哪个分组变量]

  2. 上面概述的条件多久满足一次,而它们不多久满足一次

  3. 对于哪些分组变量和ID,这些条件成立,对于哪些条件不成立

  4. 当条件不成立时,实际观察到的结果(例如,当count1等于1时,count2应该等于2;因此,当count1等于1但count2不等于2时,则count2等于什么)。

  5. 我如何指定这些条件并生成整洁的类似汇总的表格来回答这些问题?您可以认为count1count2的级别与某些特征相关联,我想了解这些级别之间以及与分组变量之间的关系。如果有人对这些类型的问题有任何图形化的可视化想法,那也将非常有帮助!

请考虑以下数据帧:set.seed(123)dat

r count data-visualization logical-operators summary
1个回答
0
投票

这是解决问题1和2的一种方法,尽管这有点涉及。我正在使用tidyr pivot_widercount1count2的每个唯一值创建列。 length中的函数values_fn计算由pivot_wider创建的矢量中相关组合的元素数量。由于我们分别需要count1count2的答案,因此我两次运行pivot_wider。然后将结果与bind_cols合并,并删除多余的色谱柱。稍加思考,就可以改善所有这些情况。

© www.soinside.com 2019 - 2024. All rights reserved.