在具有缺失值的列上使用sapply

问题描述 投票:0回答:1

我一般都理解应用函数系列的功能,但是我在使用它来基于另一个缺少值的列来改变新列时遇到了麻烦。我能够通过for循环完成我的任务,但我想通过使用应用类型函数来加速性能

假设我有一系列时间序列从今天开始并从现在开始几年结束。我的原始指数仅存在于最初几年。然后,我想在剩下的几年中使用假定的%变化(假设为10%)人为地扩展这些指数并将其存储为新列。

这是我的样本数据集:

data <- data.frame(
date = seq.Date(as.Date("2019-01-01"),as.Date("2021-01-01"),"3 months"),
index = c(1,1.2,1.4,1.5,1.6,1.7,NA,NA,NA)
)

我现在可以使用for循环创建一个新列index2:

data$index2 <- 1
for (i in 1:nrow(data)) {
  if (!is.na(data$index[i])) {
    data$index2[i] = data$index[i]
  }
  else {
  data$index2[i] = data$index2[i-1]*1.1
  }
}

但是,我无法弄清楚如何使用apply函数完成此操作。再次感谢任何建议。

r dplyr sapply mutate
1个回答
2
投票

如果我理解正确,这似乎是lag的工作:

library(dplyr)
data %>% mutate(index2 = if_else(!is.na(index), index, lag(index) * 1.1))
#        date index index2
#1 2019-01-01   1.0   1.00
#2 2019-04-01   1.2   1.20
#3 2019-07-01   1.4   1.40
#4 2019-10-01   1.5   1.50
#5 2020-01-01   1.6   1.60
#6 2020-04-01   1.7   1.70
#7 2020-07-01    NA   1.87
#8 2020-10-01    NA     NA
#9 2021-01-01    NA     NA

这会再现您的预期输出(即它只替换第一个NA);我可能误解了你的问题陈述,但我不知道*apply将与此有什么关系。


你可以实现像这样的sapply位置

transform(data, index2 = c(index[1], sapply(seq_along(index)[-1], function(i)
    if (!is.na(index[i])) index[i] else index[i - 1] * 1.1)))
#        date index index2
#1 2019-01-01   1.0   1.00
#2 2019-04-01   1.2   1.20
#3 2019-07-01   1.4   1.40
#4 2019-10-01   1.5   1.50
#5 2020-01-01   1.6   1.60
#6 2020-04-01   1.7   1.70
#7 2020-07-01    NA   1.87
#8 2020-10-01    NA     NA
#9 2021-01-01    NA     NA

但这不是很漂亮。


在你的拼写错误修复后,问题陈述略有变化,我们需要cumprod

data %>%
    mutate(index2 = if_else(
        !is.na(index),
        index,
        index[which.max(index)] * cumprod(c(rep(1.0, sum(!is.na(index))), rep(1.1, sum(is.na(index)))))))
#        date index index2
#1 2019-01-01   1.0 1.0000
#2 2019-04-01   1.2 1.2000
#3 2019-07-01   1.4 1.4000
#4 2019-10-01   1.5 1.5000
#5 2020-01-01   1.6 1.6000
#6 2020-04-01   1.7 1.7000
#7 2020-07-01    NA 1.8700
#8 2020-10-01    NA 2.0570
#9 2021-01-01    NA 2.2627
© www.soinside.com 2019 - 2024. All rights reserved.