r dplyr ends_with多个字符串匹配

问题描述 投票:3回答:2

我可以使用dplyr :: select(ends_with)来选择适合任何多个条件的列名。考虑到我的列名,我想使用结尾而不是包含或匹配,因为我想要选择的字符串在列名的末尾是相关的,但也可能出现在其他字符串的中间。例如,

df <- data.frame(a10 = 1:4,
             a11 = 5:8,
             a20 = 1:4,
             a12 = 5:8)

我想选择以1或2结尾的列,只包含列a11和a12。 select(ends_with)是最好的方法吗?

谢谢!

r select dplyr string-matching ends-with
2个回答
3
投票

您也可以使用正则表达式执行此操作。我知道你最初不想使用匹配,但如果使用“字符串结束”符号$,它实际上效果很好。用|分隔你的各种结局。

df <- data.frame(a10 = 1:4,
                 a11 = 5:8,
                 a20 = 1:4,
                 a12 = 5:8)

df %>% select(matches('1$|2$'))
  a11 a12
1   5   5
2   6   6
3   7   7
4   8   8

如果你有一个带有长列表的更复杂的例子,请使用paste0collapse = '|'

dff <- data.frame(a11 = 1:3,
                  a12 = 2:4,
                  a13 = 3:5,
                  a16 = 5:7,
                  my_cat = LETTERS[1:3],
                  my_dog = LETTERS[5:7],
                  my_snake = LETTERS[9:11])

my_cols <- paste0(c(1,2,6,'dog','cat'), 
                  '$', 
                  collapse = '|')

dff %>% select(matches(my_cols))

  a11 a12 a16 my_cat my_dog
1   1   2   5      A      E
2   2   3   6      B      F
3   3   4   7      C      G

0
投票

我不知道ends_with()是否是执行此操作的最佳方式,但您也可以使用逻辑索引在基本R中执行此操作。

# Extract the last character of the column names, and test if it is "1" or "2"
lgl_index <- substr(x     = names(df), 
                    start = nchar(names(df)), 
                    stop  = nchar(names(df))) %in% c("1", "2")

使用此索引,您可以按如下方式对数据帧进行子集化

df[, index_lgl]
  a11 a12
1   5   5
2   6   6
3   7   7
4   8   8

或者与dplyr::select()

select(df, which(lgl_index))
  a11 a12
1   5   5
2   6   6
3   7   7
4   8   8

仅保留以1或2结尾的列。

© www.soinside.com 2019 - 2024. All rights reserved.