如何使用“四重嵌套”将宽数据帧转换为多级结构的长数据帧？

Question

我进行了一项研究，回想起来（一个人，一个人学习:-)）似乎产生了多层次的数据。现在我正在尝试从宽到长重构数据集，以便我可以使用例如lme4。

在这样做的过程中，我遇到了一个，嗯，挑战，我之前遇到过几次，但是我从来没有找到一个好的解决方案。这次我再次搜索，但我可能使用错误的关键字 - 或者这个问题比我想象的要少得多。

基本上，在此数据集中，变量名指示收集哪些度量数据。我问参与者评分（率）干预（可能是真的）。每次干预都属于6个行为领域之一。此外，参与者对每次干预进行评估，无论是在其自身呈现时，还是与其他干预同时进行，或者与其他两种干预措施同时进行。有三种类型的干预措施，它们都在（t0）之前和之后（t1）进行了评估，并向他们提供了一些信息。

所以，实际上，我有一个可以像这样重新生成的数据帧：

### Elements of the variable names
measurementMomentsVector <- c("t0", "t1");
interventionTypesVector <- c("fear", "know", "scd");
nrOfInterventionsSimultaneouslyVector <- c(1, 2, 3);
behaviorDomainsVector <- c("diet", "pox", "alc", "smoking", "traff", "adh");

### Generate a vector with all variable names
variableNames <-
  apply(expand.grid(measurementMomentsVector,
                    interventionTypesVector,
                    nrOfInterventionsSimultaneouslyVector,
                    behaviorDomainsVector),
        1, paste0, collapse="_");

### Generate 5 'participants' worth of data
wideData <- data.frame(matrix(rnorm(5*length(variableNames)), nrow=5));

### Assign names
names(wideData) <- variableNames;

### Add unique id variable for every participants
wideData$id <- 1:5;

因此，使用head(wideData)[, 1:5]，您可以大致了解数据框的外观：

  t0_fear_1_diet t1_fear_1_diet t0_know_1_diet t1_know_1_diet t0_scd_1_diet
1     -0.9338191      0.9747453      1.0069036      0.3500103  -0.844699708
2      0.8921867      1.3687834     -1.2005791      0.2747955   1.316768219
3      1.6200200      0.5245470     -1.2910586      1.3211912  -0.174795144
4      0.1543738      0.7535642      0.4726131     -0.3464789  -0.009190702
5     -1.3676692     -0.4491574     -2.0902003     -0.3484678  -2.537501824

现在，我想将这些数据转换为长数据帧，包含6个变量，例如'id'，'measurementMoment'，'interventionType'，'nrOfInterventionsSimultaneously'，'behaviorDomain'和'evaluation'，其中第一个变量表示记录所属的参与者，最后一个变量是参与者给出特定干预的分数（评级，等级，评估），其间的四个变量指示哪个干预被准确评定。

我可能只是为这个问题写了一些“自定义”代码，但我希望R'能为此做点什么。我一直在玩reshape2，例如：

longData <- reshape(wideData, varying=1:(ncol(wideData)-1),
                    idvar="id",
                    sep="_", direction="long")

但它无法猜测时变变量：

Error in guess(varying) : 
  failed to guess time-varying variables from their names

我现在一直在努力解决这个问题，而且我无法在网上找到任何答案。现在我真的需要继续前进，所以我想在尝试写定制的东西之前我会尝试这个作为最后的努力:-)

我非常感谢任何人都可以提供的任何指针！

Answer 1

我认为您的问题可以通过两步方法解决：

把你的数据融化成一个长长的data.frame（或者像我一样，在长长的data.table）
将包含所有标签的variable列拆分为每个所需分组变量的单独列。

由于这些信息在标签中，因此可以使用tstrsplit包中的data.table函数轻松实现。

这是你可能正在寻找的：

library(data.table)
longData <- melt(setDT(wideData), id.vars="id")
longData[, c("moment", "intervention", "number", "behavior") := 
                tstrsplit(variable, "_", type.convert = TRUE)
       ][, variable:=NULL]

结果：

> head(longData,15)
    id       value moment intervention number behavior
 1:  1 -0.07747254     t0         fear      1     diet
 2:  2 -0.76207379     t0         fear      1     diet
 3:  3  1.15501244     t0         fear      1     diet
 4:  4  1.24792369     t0         fear      1     diet
 5:  5 -0.28226121     t0         fear      1     diet
 6:  1 -1.04875354     t1         fear      1     diet
 7:  2 -0.91436882     t1         fear      1     diet
 8:  3  0.72863487     t1         fear      1     diet
 9:  4  0.10934261     t1         fear      1     diet
10:  5 -0.06093002     t1         fear      1     diet
11:  1 -0.70725760     t0         know      1     diet
12:  2  1.06309003     t0         know      1     diet
13:  3  0.89501164     t0         know      1     diet
14:  4  1.48148316     t0         know      1     diet
15:  5  0.22086835     t0         know      1     diet

作为data.table的替代方法，您还可以使用variable包的cSplit函数拆分splitstackshape列（之后您必须重命名生成的变量列）：

library(splitstackshape)
longData <- cSplit(longData, sep="_", "variable", "wide", type.convert=TRUE)
names(longData) <- c("id","value","moment","intervention","number","behavior")

或与tidyr：

library(tidyr)
separate(longData, variable, c("moment", "intervention", "number", "behavior"), sep="_", remove=TRUE)

如何使用“四重嵌套”将宽数据帧转换为多级结构的长数据帧？

问题描述投票：7回答：1

1个回答

最新问题

如何使用“四重嵌套”将宽数据帧转换为多级结构的长数据帧？

问题描述 投票：7回答：1

1个回答

最新问题

问题描述投票：7回答：1