根据首次注册和最近值转换NA值

问题描述 投票:12回答:4

我已经提出了类似的问题,但现在我想限制NA的新值。

我有一些这样的数据:

Date 1   Date 2    Date 3    Date 4    Date 5   Date 6
A  NA       0.1       0.2       NA        0.3    0.2
B  0.1      NA        NA        0.3       0.2    0.1
C  NA       NA        NA        NA        0.3    NA
D  0.1      0.2       0.3       NA        0.1    NA
E  NA       NA        0.1       0.2       0.1    0.3

我想根据注册值的第一个日期更改数据的NA值。因此,例如对于A,第一次注册是日期2.然后我希望在该注册之前,A中的NA的值是0,并且在第一次注册之后,NA的值变为最接近的值的平均值(日期的平均值3)和5)。

如果最后一个值是NA,则将其转换为最后一个注册值(如在C和D中)。在E的情况下,所有NA值将变为0。

得到这样的东西:

Date 1   Date 2    Date 3    Date 4    Date 5   Date 6 
A  0       0.1       0.2        0.25      0.3    0.2
B  0.1     0.2       0.2        0.3       0.2    0.1
C  0       0         0          0         0.3    0.3
D  0.1     0.2       0.3        0.2       0.1    0.1
E  0       0         0.1        0.2       0.1    0.3

你能帮助我吗?我不知道如何在R中做到这一点。

r na
4个回答
8
投票

这是使用na.approx包中的zooapply使用MARGIN = 1的方法(所以这可能效率不高但完成工作)。

library(zoo)
df1 <- as.data.frame(t(apply(dat, 1, na.approx, method = "constant", f = .5, na.rm = FALSE)))

这导致了

df1
#   V1  V2  V3   V4  V5
#A  NA 0.1 0.2 0.25 0.3
#B 0.1 0.2 0.2 0.30 0.2
#C  NA  NA  NA   NA 0.3
#E  NA  NA 0.1 0.20 0.1

替换NAs并重命名列。

df1[is.na(df1)] <- 0
names(df1) <- names(dat)
df1
#  Date_1 Date_2 Date_3 Date_4 Date_5
#A    0.0    0.1    0.2   0.25    0.3
#B    0.1    0.2    0.2   0.30    0.2
#C    0.0    0.0    0.0   0.00    0.3
#E    0.0    0.0    0.1   0.20    0.1

说明

给出一个矢量

x <- c(0.1, NA, NA, 0.3, 0.2)
na.approx(x)

返回带有线性插值的x

#[1] 0.1000000 0.1666667 0.2333333 0.3000000 0.2000000

但是OP要求恒定值,所以我们需要来自method = "constant"函数的approx参数。

na.approx(x, method = "constant") 
# [1] 0.1 0.1 0.1 0.3 0.2

但这仍然不是OP所要求的,因为当你想要最接近的非NA值的平均值时,它会向前推进最后一个观察。因此我们需要论证f(也来自approx

na.approx(x, method = "constant", f = .5)
# [1] 0.1 0.2 0.2 0.3 0.2 # looks good

来自?approx

f:for method =“constant”0到1之间的数字,表示左连续和右连续步长函数之间的折衷。如果y0和y1是该点左侧和右侧的值,则如果f == 0,则值为y0;如果f == 1,则值为y1;对于中间值,y0 *(1-f)+ y1 * f。这样,对于f == 0,结果是右连续的,对于f == 1,结果是左连续的,即使对于非有限y值也是如此。

最后,如果我们不想在每行的开头和结尾替换NAs,我们需要na.rm = FALSE

来自?na.approx

na.rm:合乎逻辑的。如果(样条)插值的结果仍然导致NA,是否应该删除它们?

数据

dat <- structure(list(Date_1 = c(NA, 0.1, NA, NA), Date_2 = c(0.1, NA, 
NA, NA), Date_3 = c(0.2, NA, NA, 0.1), Date_4 = c(NA, 0.3, NA, 
0.2), Date_5 = c(0.3, 0.2, 0.3, 0.1)), .Names = c("Date_1", "Date_2", 
"Date_3", "Date_4", "Date_5"), class = "data.frame", row.names = c("A", 
"B", "C", "E"))

编辑

如果在最后一列中有NAs,我们可以在应用NA之前用最后的非na.approxs替换它们,如上所示。

dat$Date_6[is.na(dat$Date_6)] <- dat[cbind(1:nrow(dat),
                                           max.col(!is.na(dat), ties.method = "last"))][is.na(dat$Date_6)]

3
投票

这是另一个可能的答案,使用na.locf包中的zoo。编辑:apply实际上不是必需的;如果缺少此值,此解决方案将填充上次观察到的值。

# create the dataframe
Date1 <- c(NA,.1,NA,NA)
Date2 <- c(.1, NA,NA,NA)
Date3 <- c(.2,NA,NA,.1)
Date4 <- c(NA,.3,NA,.2)
Date5 <- c(.3,.2,.3,.1)
Date6 <- c(.1,NA,NA,NA)
df <- as.data.frame(cbind(Date1,Date2,Date3,Date4,Date5,Date6))
rownames(df) <- c('A','B','C','D')

> df
  Date1 Date2 Date3 Date4 Date5 Date6
A    NA   0.1   0.2    NA   0.3   0.1
B   0.1    NA    NA   0.3   0.2    NA
C    NA    NA    NA    NA   0.3    NA
D    NA    NA   0.1   0.2   0.1    NA



# Load library
library(zoo)
df2 <- t(na.locf(t(df),na.rm = F)) # fill last observation carried forward
df3 <- t(na.locf(t(df),na.rm = F, fromLast = T)) # last obs carried backward

df4 <- (df2 + df3)/2 # mean of both dataframes

df4 <- t(na.locf(t(df4),na.rm = F)) # fill last observation carried forward
df4[is.na(df4)] <- 0 # NA values are 0

  Date1 Date2 Date3 Date4 Date5 Date6
A   0.0   0.1   0.2  0.25   0.3   0.1
B   0.1   0.2   0.2  0.30   0.2   0.2
C   0.0   0.0   0.0  0.00   0.3   0.3
D   0.0   0.0   0.1  0.20   0.1   0.1

3
投票

这是来自rollmean的基础R + zoo的另一种选择(对于这种情况,窗口大小为k = 2,很容易在基础R中重写)。

t(apply(df, 1, function(x) {
  means <- c(0, rollmean(na.omit(x), 2), tail(na.omit(x), 1))
  replace(x, is.na(x), means[1 + cumsum(!is.na(x))[is.na(x)]])
}))
#   Date1 Date2 Date3 Date4 Date5 Date6
# A   0.0   0.1   0.2  0.25   0.3   0.2
# B   0.1   0.2   0.2  0.30   0.2   0.1
# C   0.0   0.0   0.0  0.00   0.3   0.3
# D   0.1   0.2   0.3  0.20   0.1   0.1
# E   0.0   0.0   0.1  0.20   0.1   0.3

说明。假设xdf的第一行:

#   Date1 Date2 Date3 Date4 Date5 Date6
# A    NA   0.1   0.2    NA   0.3   0.2

然后

means
# [1] 0.00 0.15 0.25 0.25 0.20

是0的向量,滚动意味着两个以下非NA元素,以及最后一个非NA元素。然后我们需要做的就是replace那些xis.na(x)元素。我们将在means指数中用1 + cumsum(!is.na(x))[is.na(x)]的元素替换它们。这是比较棘手的部分。这里

cumsum(!is.na(x))
# [1] 0 1 2 2 3 4

这意味着x的第一个元素已经看到了0个非NA元素,而最后一个元素到目前为止已经看到了4个非NA元素。然后

cumsum(!is.na(x))[is.na(x)]
# [1] 0 2

是关于我们想要替换的x中的那些NA元素。那么请注意

1 + cumsum(!is.na(x))[is.na(x)]
# [1] 1 3

对应于我们想要用来替换的means的元素。


0
投票

我发现下面的功能太复杂了但它确实有效,所以就这样了。

fun <- function(x){
  if(anyNA(x)){
    inx <- which(!is.na(x))
    if(inx[1] > 1) x[seq_len(inx[1] - 1)] <- 0
    prev <- inx[1]
    for(i in inx[-1]){
      if(i - prev > 1){
        m <- mean(c(x[i], x[prev]))
        while(prev < i){
          x[prev] <- m
          prev <- prev + 1
        }
      }
      prev <- i
    }
  }
  x
}

res <- t(apply(df1, 1, fun))
res <- as.data.frame(res)
res
#  Date.1 Date.2 Date.3 Date.4 Date.5
#A    0.0    0.1   0.25   0.25    0.3
#B    0.2    0.2   0.20   0.30    0.2
#C    0.0    0.0   0.00   0.00    0.3
#E    0.0    0.0   0.10   0.20    0.1

数据。

df1 <- read.table(text = "
Date.1   Date.2    Date.3    Date.4    Date.5
A  NA       0.1       0.2       NA        0.3
B  0.1      NA        NA        0.3       0.2
C  NA       NA        NA        NA        0.3
E  NA       NA        0.1       0.2       0.1                  
", header = TRUE)
© www.soinside.com 2019 - 2024. All rights reserved.