在与purrr和readxl组合之前，在excel表中标准化列名

Question

我想编译一个带有多个标签的Excel文件，标签按年份（2016年，2015年，2014年等）。每个选项卡都有相同的数据，但列名称的拼写可能与每年的拼写不同。

我希望在合并之前标准化每张表中的列。

这是使用purrr和readxl进行此类任务的通用方法：

combined.df <- excel_sheets(my.file) %>% 
  set_names() %>%                                 
  map_dfr(read_excel, path = my.file, .id = "sheet")

...但是如上所述，这会为“COLUMN ONE”和“Column One”创建单独的列，这些列具有相同的数据。

将make.names插入管道可能是最好的解决方案。

将它们放在一起将是理想的......类似于：

   combined.df <- excel_sheets(my.file) %>% 
    set_names() %>% 
    map(read_excel, path = my.file) %>% 
    map(~(names(.) %>%  #<---WRONG
            make.names() %>% 
            str_to_upper() %>% 
            str_trim() %>% 
            set_names()) )

..但语法都错了。

Answer 1

而不是定义自己的函数，clean_names包中的janitor函数可能能够帮助您。它将dataframe / tibble作为输入，并返回一个带有干净名称的数据帧/ tibble作为输出。

这是一个例子：

library(tidyverse)

tibble(" a col name" = 1,
       "another-col-NAME" = 2,
       "yet another name  " = 3) %>% 
    janitor::clean_names()
#> # A tibble: 1 x 3
#>   a_col_name another_col_name yet_another_name
#>        <dbl>            <dbl>            <dbl>
#> 1          1                2                3

然后，您可以将其直接放入您提供的代码中：

combined.df <- excel_sheets(my.file) %>% 
    set_names() %>%
    map(read_excel, path = my.file) %>%  #<Import as list, not dfr
    map(janitor::clean_names) %>%        #<janitor::clean_names
    bind_rows(.id = "sheet")

Answer 2

创建一个新函数是可行的，但是很冗长，并使用两个映射：

  # User defined function: col_rename
  col_rename <- function(df){
    names(df) <- names(df) %>% 
     str_to_upper() %>% 
     make.names() %>% 
     str_trim()
   return(df)
  }

   combined.df <- excel_sheets(my.file) %>% 
    set_names() %>%
    map(read_excel, path = my.file) %>%  #<Import as list, not dfr
    map(col_rename) %>%                  #<Fix colnames (user defined function)
    bind_rows(.id = "sheet")

在与purrr和readxl组合之前，在excel表中标准化列名

问题描述投票：0回答：2

2个回答

最新问题

在与purrr和readxl组合之前，在excel表中标准化列名

问题描述 投票：0回答：2

2个回答

最新问题

问题描述投票：0回答：2