在下面编码的R数据帧中,我想用B
替换b
出现的所有时间。
junk <- data.frame(x <- rep(LETTERS[1:4], 3), y <- letters[1:12])
colnames(junk) <- c("nm", "val")
这提供:
nm val
1 A a
2 B b
3 C c
4 D d
5 A e
6 B f
7 C g
8 D h
9 A i
10 B j
11 C k
12 D l
我最初的尝试是使用像这样的for
和if
语句:
for(i in junk$nm) if(i %in% "B") junk$nm <- "b"
但是我相信你可以看到,这将用junk$nm
取代b
的所有值。我可以看到为什么这样做但我似乎无法让它只替换那些原始值为B
的垃圾$ nm的情况。
注意:我设法用gsub
解决问题但是为了学习R我仍然想知道如何让我的原始方法工作(如果可能的话)
更容易将nm转换为字符,然后进行更改:
junk$nm <- as.character(junk$nm)
junk$nm[junk$nm == "B"] <- "b"
编辑:如果确实你需要维持nm作为因素,最后添加:
junk$nm <- as.factor(junk$nm)
替换值的另一种有用方法
library(plyr)
junk$nm <- revalue(junk$nm, c("B"="b"))
简短的回答是:
junk$nm[junk$nm %in% "B"] <- "b"
看看Index vectors in R Introduction(如果你还没看过)。
编辑。正如评论中所注意到的,此解决方案适用于字符向量,因此对数据失败。
因素最好的方法是改变等级:
levels(junk$nm)[levels(junk$nm)=="B"] <- "b"
由于您显示的数据是因素,因此它会使事情变得复杂。 @ diliop的答案通过将nm
转换为字符变量来解决问题。要回到原始因素,需要进一步的步骤。
另一种方法是操纵因素的水平。
> lev <- with(junk, levels(nm))
> lev[lev == "B"] <- "b"
> junk2 <- within(junk, levels(nm) <- lev)
> junk2
nm val
1 A a
2 b b
3 C c
4 D d
5 A e
6 b f
7 C g
8 D h
9 A i
10 b j
11 C k
12 D l
这很简单,我经常忘记levels()
有替代功能。
编辑:正如@Seth在评论中指出的那样,这可以在单行中完成,而不会失去清晰度:
within(junk, levels(nm)[levels(nm) == "B"] <- "b")
在一个命令中执行此操作的最简单方法是使用which
命令,也不需要通过执行以下操作将因子更改为字符:
junk$nm[which(junk$nm=="B")]<-"b"
您已在nm
中创建了一个因子变量,因此您需要避免这样做,或者为因子属性添加额外的级别。你还应该避免在data.frame()的参数中使用<-
选项1:
junk <- data.frame(x = rep(LETTERS[1:4], 3), y =letters[1:12], stringsAsFactors=FALSE)
junk$nm[junk$nm == "B"] <- "b"
选项2:
levels(junk$nm) <- c(levels(junk$nm), "b")
junk$nm[junk$nm == "B"] <- "b"
junk
如果你正在处理字符变量(注意stringsAsFactors
在这里是假的)你可以使用replace:
junk <- data.frame(x <- rep(LETTERS[1:4], 3), y <- letters[1:12], stringsAsFactors = FALSE)
colnames(junk) <- c("nm", "val")
junk$nm <- replace(junk$nm, junk$nm == "B", "b")
junk
# nm val
# 1 A a
# 2 b b
# 3 C c
# 4 D d
# ...
stata.replace<-function(data,replacevar,replacevalue,ifs) {
ifs=parse(text=ifs)
yy=as.numeric(eval(ifs,data,parent.frame()))
x=sum(yy)
data=cbind(data,yy)
data[yy==1,replacevar]=replacevalue
message=noquote(paste0(x, " replacement are made"))
print(message)
return(data[,1:(ncol(data)-1)])
}
使用下面的行调用此函数。
d=stata.replace(d,"under20",1,"age<20")