将数据帧中所有字符变量中的所有值从小写转换为大写

Question

我有一个字符和数字变量的“混合数据框”。 city,hs_cd,sl_no,col_01,col_02,col_03 Austin,1,2,,46,Female Austin,1,3,,32,Male Austin,1,4,,27,Male Austin,1,5,,20,Female Austin,2,2,,42,Female Austin,2,1,,52,Male Austin,2,3,,25,Male Austin,2,4,,22,Female Austin,3,3,,30,Female Austin,3,1,,65,Female

我想将数据框中的所有小写字符转换为大写。有什么方法可以一次性完成此操作，而无需对每个字符变量重复执行此操作？

Answer 1

df <- data.frame(v1=letters[1:5],v2=1:5,v3=letters[10:14],stringsAsFactors=FALSE) v1 v2 v3 1 a 1 j 2 b 2 k 3 c 3 l 4 d 4 m 5 e 5 n

您可以使用：

data.frame(lapply(df, function(v) { if (is.character(v)) return(toupper(v)) else return(v) }))

这给出了：

v1 v2 v3 1 A 1 J 2 B 2 K 3 C 3 L 4 D 4 M 5 E 5 N

Answer 2

dplyr

包中，您还可以将

mutate_all()

函数与

toupper()

结合使用。这将影响角色和因子类别。

library(dplyr)
df <- mutate_all(df, funs=toupper)

Answer 3

以

_if

、

_at

、

_all

结尾的作用域动词已在

across()

 1.0.0 或更高版本中被使用

packageVersion("dplyr")

取代。要使用

across

执行此操作：

df %>% 
  mutate(across(where(is.character), toupper))

```
across
```
的第一个参数是使用 tidyselect 语法转换哪些列。上面的代码将在所有字符列上应用该函数。
```
across
```
的第二个参数是要应用的函数。除了命名函数之外，它还支持 purrr 风格的 lambda 函数/公式语法：
```
~ toupper(.x)
```
或匿名函数
```
function(x) toupper(x)
```
（或 R > 4.1.0 中的简写
```
\(x) toupper(x)
```
），可以轻松设置其他函数参数并且清晰。

数据

df <- structure(list(city = c("Austin", "Austin", "Austin", "Austin", 
"Austin", "Austin", "Austin", "Austin", "Austin", "Austin"), 
    hs_cd = c(1L, 1L, 1L, 1L, 2L, 2L, 2L, 2L, 3L, 3L), sl_no = c(2L, 
    3L, 4L, 5L, 2L, 1L, 3L, 4L, 3L, 1L), col_01 = c(NA, NA, NA, 
    NA, NA, NA, NA, NA, NA, NA), col_02 = c(46L, 32L, 27L, 20L, 
    42L, 52L, 25L, 22L, 30L, 65L), col_03 = c("Female", "Male", 
    "Male", "Female", "Female", "Male", "Male", "Female", "Female", 
    "Female")), class = "data.frame", row.names = c(NA, -10L))

Answer 4

R 中的 apply 函数很简单

f <- apply(f,2,toupper)

无需检查该列是字符还是其他类型。

Answer 5

另一种选择是使用

mutate_if()

和

str_to_upper()

函数的组合，两者都来自 tidyverse 包：

df %>% mutate_if(is.character, str_to_upper) -> df

这会将数据框中的所有字符串变量转换为大写。

str_to_lower()

做相反的事情。

Answer 6

对于使用这些答案的人来说，这里有一个附带评论。 Juba 的答案很棒，因为如果变量是数字或字符串，它的选择性就非常大。但是，如果您有组合（例如 a1、b1、a2、b2）等。它将无法正确转换字符。

正如@Trenton Hoffman 所说，

library(dplyr)
df <- mutate_each(df, funs(toupper))

同时影响特征类和因子类，适用于“混合变量”；例如如果您的变量同时包含字符和数字值（例如 a1），则两者都将转换为因子。总的来说，这并不是一个太大的问题，但是如果您最终想要匹配 data.frames，例如

df3 <- df1[df1$v1 %in% df2$v1,]

其中 df1 已被转换，df2 包含未转换的 data.frame 或类似的，这可能会导致一些问题。解决方法是你必须短暂运行

df2 <- df2 %>% mutate_each(funs(toupper), v1)
#or
df2 <- df2 %>% mutate_each(df2, funs(toupper))
#and then
df3 <- df1[df1$v1 %in% df2$v1,]

如果您使用基因组数据，那么知道这一点就可以派上用场。

Answer 7

如果您需要处理包含可以使用的因素的数据框：

df = data.frame(v1=letters[1:5],v2=1:5,v3=letters[10:14],v4=as.factor(letters[1:5]),v5=runif(5),stringsAsFactors=FALSE)

df
    v1 v2 v3 v4        v5
    1  a  1  j  a 0.1774909
    2  b  2  k  b 0.4405019
    3  c  3  l  c 0.7042878
    4  d  4  m  d 0.8829965
    5  e  5  n  e 0.9702505


sapply(df,class)
         v1          v2          v3          v4          v5
"character"   "integer" "character"    "factor"   "numeric"

使用 mutate_each_ 将因子转换为字符，然后全部转换为大写

   upper_it = function(X){X %>% mutate_each_( funs(as.character(.)), names( .[sapply(., is.factor)] )) %>%
   mutate_each_( funs(toupper), names( .[sapply(., is.character)] ))}   # convert factor to character then uppercase

给予

  upper_it(df)
      v1 v2 v3 v4
    1  A  1  J  A
    2  B  2  K  B
    3  C  3  L  C
    4  D  4  M  D
    5  E  5  N  E

同时

sapply( upper_it(df),class)
         v1          v2          v3          v4          v5
"character"   "integer" "character" "character"   "numeric"

Answer 8

或者，如果您只想将某一特定行转换为大写，请使用以下代码：

df[[1]] <- toupper(df[[1]])

将数据帧中所有字符变量中的所有值从小写转换为大写

问题描述投票：0回答：8

8个回答

以

最新问题

将数据帧中所有字符变量中的所有值从小写转换为大写

问题描述 投票：0回答：8

8个回答

以

最新问题

问题描述投票：0回答：8