如何将数据帧列转换为数字类型?

问题描述 投票:229回答:16

你怎么一个数据帧列转换为数字类型?

r dataframe type-conversion
16个回答
255
投票

由于(仍然)任何人也没有打勾,我假定你有一些实际的问题一点,主要是因为你没有指定你要转换为numeric什么类型的载体。我建议你应该为了完成你的任务应用transform功能。

现在我要证明某些“转换异常”:

# create dummy data.frame
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)

让我们在data.frame一览

> d
  char fake_char fac char_fac num
1    a         1   1        a   1
2    b         2   2        b   2
3    c         3   3        c   3
4    d         4   4        d   4
5    e         5   5        e   5

让我们运行:

> sapply(d, mode)
       char   fake_char         fac    char_fac         num 
"character" "character"   "numeric"   "numeric"   "numeric" 
> sapply(d, class)
       char   fake_char         fac    char_fac         num 
"character" "character"    "factor"    "factor"   "integer" 

现在你可能问自己:“如果是一个异常?”嗯,我碰到了很奇特的事情R,而这还不是最混杂的东西,但它可以迷惑你,特别是如果你滚进睡前阅读。

这里所说:前两列character。我故意叫二日一个fake_char。现货与一个本character变量德克在答复中创建的相似性。它实际上是转换为numerical一个character载体。第三和第四列是factor,最后一个是“纯粹的” numeric

如果你使用transform功能,您可以将fake_char转换成numeric,但不是char变量本身。

> transform(d, char = as.numeric(char))
  char fake_char fac char_fac num
1   NA         1   1        a   1
2   NA         2   2        b   2
3   NA         3   3        c   3
4   NA         4   4        d   4
5   NA         5   5        e   5
Warning message:
In eval(expr, envir, enclos) : NAs introduced by coercion

但如果你在fake_charchar_fac做同样的事情,你会很幸运,并摆脱无NA的:

> transform(d, fake_char = as.numeric(fake_char), 
               char_fac = as.numeric(char_fac))

  char fake_char fac char_fac num
1    a         1   1        1   1
2    b         2   2        2   2
3    c         3   3        3   3
4    d         4   4        4   4
5    e         5   5        5   5

如果您保存转化data.frame和检查modeclass,你会得到:

> D <- transform(d, fake_char = as.numeric(fake_char), 
                    char_fac = as.numeric(char_fac))

> sapply(D, mode)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"   "numeric"   "numeric"   "numeric" 
> sapply(D, class)
       char   fake_char         fac    char_fac         num 
"character"   "numeric"    "factor"   "numeric"   "integer"

因此,得出的结论是:是的,你可以character向量转换成numeric之一,但只有当它的元素是“转换”到numeric。如果有矢量只是一个character元素,你会试图到载体numerical一个转换时出现错误。

而只是为了证明我的观点:

> err <- c(1, "b", 3, 4, "e")
> mode(err)
[1] "character"
> class(err)
[1] "character"
> char <- as.numeric(err)
Warning message:
NAs introduced by coercion 
> char
[1]  1 NA  3  4 NA

而现在,只是为了好玩(或实习),尝试去猜测这些命令的输出:

> fac <- as.factor(err)
> fac
???
> num <- as.numeric(fac)
> num
???

亲切问候帕特里克·伯恩斯! =)


3
投票

要转换一个数据帧列数字,你只需要做: -

因子数值: -

data_frame$column <- as.numeric(as.character(data_frame$column))

2
投票

虽然他人已经覆盖了话题非常好,我想添加这个额外的快的想法/提示。你可以使用正则表达式预先检查是否字符可能仅包含NUMERICS。

for(i in seq_along(names(df)){
     potential_numcol[i] <- all(!grepl("[a-zA-Z]",d[,i]))
}
# and now just convert only the numeric ones
d <- sapply(d[,potential_numcol],as.numeric)

对于更复杂的正则表达式和一个整洁为什么要学习/体验他们的能力看到这真的不错的网站:http://regexr.com/


0
投票

在我的电脑(R v.3.2.3),applysapply给错误。 lapply效果很好。

dt[,2:4] <- lapply(dt[,2:4], function (x) as.factor(as.numeric(x)))

0
投票

如果数据框有多种类型的列时,某些字符,某些数字请尝试以下只包含数值为数字列转换:

for (i in 1:length(data[1,])){
  if(length(as.numeric(data[,i][!is.na(data[,i])])[!is.na(as.numeric(data[,i][!is.na(data[,i])]))])==0){}
  else {
    data[,i]<-as.numeric(data[,i])
  }
}

0
投票

随着谈话::转换

要轻松多列转换为可以使用hablar::convert不同的数据类型。简单的语法:df %>% convert(num(a))列一个从转换到DF数值。

例如详细

mtcars的所有列转换为字符。

df <- mtcars %>% mutate_all(as.character) %>% as_tibble()

> df
# A tibble: 32 x 11
   mpg   cyl   disp  hp    drat  wt    qsec  vs    am    gear  carb 
   <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 21    6     160   110   3.9   2.62  16.46 0     1     4     4    
 2 21    6     160   110   3.9   2.875 17.02 0     1     4     4    
 3 22.8  4     108   93    3.85  2.32  18.61 1     1     4     1    

随着hablar::convert

library(hablar)

# Convert columns to integer, numeric and factor
df %>% 
  convert(int(cyl, vs),
          num(disp:wt),
          fct(gear))

结果是:

# A tibble: 32 x 11
   mpg     cyl  disp    hp  drat    wt qsec     vs am    gear  carb 
   <chr> <int> <dbl> <dbl> <dbl> <dbl> <chr> <int> <chr> <fct> <chr>
 1 21        6  160    110  3.9   2.62 16.46     0 1     4     4    
 2 21        6  160    110  3.9   2.88 17.02     0 1     4     4    
 3 22.8      4  108     93  3.85  2.32 18.61     1 1     4     1    
 4 21.4      6  258    110  3.08  3.22 19.44     1 0     3     1   

0
投票

考虑到可能存在的字符列,这是基于@Abdou在Get column types of excel sheet automatically答案:

makenumcols<-function(df){
  df<-as.data.frame(df)
  df[] <- lapply(df, as.character)
  cond <- apply(df, 2, function(x) {
    x <- x[!is.na(x)]
    all(suppressWarnings(!is.na(as.numeric(x))))
  })
  numeric_cols <- names(df)[cond]
  df[,numeric_cols] <- sapply(df[,numeric_cols], as.numeric)
  return(df)
}
df<-makenumcols(df)

0
投票

字符转换为数字,你必须通过向它转换成因子

BankFinal1 <- transform(BankLoan,   LoanApproval=as.factor(LoanApproval))
BankFinal1 <- transform(BankFinal1, LoanApp=as.factor(LoanApproval))

你必须让两列具有相同的数据,因为一列不能转换成数字。如果你做一个转换它给下面的错误

transform(BankData, LoanApp=as.numeric(LoanApproval))
Warning message:
  In eval(substitute(list(...)), `_data`, parent.frame()) :
  NAs introduced by coercion

所以,做同样的两个数据列后申请

BankFinal1 <- transform(BankFinal1, LoanApp      = as.numeric(LoanApp), 
                                    LoanApproval = as.numeric(LoanApproval))

这将改变角色成功的数字


129
投票

东西帮助了我:如果你有变量范围转换(或只是一个以上),你可以使用sapply

有点无厘头,但只是举例:

data(cars)
cars[, 1:2] <- sapply(cars[, 1:2], as.factor)

说列3,6-15和你37数据帧需要被转换为数字可能之一:

dat[, c(3,6:15,37)] <- sapply(dat[, c(3,6:15,37)], as.numeric)

82
投票

如果x是数据框dat的列名,x是类型的因素,使用方法:

as.numeric(as.character(dat$x))

22
投票

我会添加评论(广东话较低的等级)

我想补充的user276042和pangratz

dat$x = as.numeric(as.character(dat$x))

这将覆盖现有列x的值


15
投票

Tim是正确的,巴蒂尔有遗漏。下面是更多的例子:

R> df <- data.frame(a = as.character(10:15))
R> df <- data.frame(df, num = as.numeric(df$a), 
                        numchr = as.numeric(as.character(df$a)))
R> df
   a num numchr
1 10   1     10
2 11   2     11
3 12   3     12
4 13   4     13
5 14   5     14
6 15   6     15
R> summary(df)
  a          num           numchr    
 10:1   Min.   :1.00   Min.   :10.0  
 11:1   1st Qu.:2.25   1st Qu.:11.2  
 12:1   Median :3.50   Median :12.5  
 13:1   Mean   :3.50   Mean   :12.5  
 14:1   3rd Qu.:4.75   3rd Qu.:13.8  
 15:1   Max.   :6.00   Max.   :15.0  
R> 

我们data.frame现在有系数列(计数)和as.numeric()的数字摘要---这是不对的,因为它得到了数字因子水平的总结---和as.numeric(as.character())的(正确的)摘要。


14
投票

用下面的代码可以将所有的数据帧列转换为数字(X是我们要转换它的列中的数据帧):

as.data.frame(lapply(X, as.numeric))

和整个矩阵转换成数字,有两种方式:要么:

mode(X) <- "numeric"

要么:

X <- apply(X, 2, as.numeric)

或者您可以使用data.matrix功能一切转换成数字,但要注意的因素有可能不能正确转换,因此它是安全的一切转化率先character

X <- sapply(X, as.character)
X <- data.matrix(X)

如果我要转换为同时矩阵和数字我通常使用这最后一个


13
投票

虽然你的问题是严格的数字,有许多的转换,是很难开始R.我就旨在解决方法时帮助理解。这个问题类似于This Question

类型转换可以是R A痛苦,因为(1)的因素不能被直接转换为数字,他们需要先转换为字符类,(2)的日期是您通常需要处理分开的特殊情况,并(3)跨数据帧列的循环可以是棘手的。幸运的是,“tidyverse”已经解决了大部分问题。

该解决方案使用mutate_each()在数据帧的功能适用于所有列。在这种情况下,我们要应用type.convert()功能,将字符串转换为数字在那里可以。由于[R爱因素(不知道为什么)应该留字字符列得到改变的因素。为了解决这个问题,该mutate_if()功能是用来检测那些因素列和改变为字符。最后,我想展示如何lubridate可以用来改变字符类最新时间的时间戳,因为这往往也是初学者贴块。

library(tidyverse) 
library(lubridate)

# Recreate data that needs converted to numeric, date-time, etc
data_df
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX  PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                 <chr>  <chr> <chr>  <chr> <chr> <chr> <chr>  <chr> <chr>
#> 1 2012-05-04 09:30:00    BAC     T 7.8900 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.8850   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.8900  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.8900 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.8900 85053     F  7.88 108101  7.90

# Converting columns to numeric using "tidyverse"
data_df %>%
    mutate_all(type.convert) %>%
    mutate_if(is.factor, as.character) %>%
    mutate(TIMESTAMP = as_datetime(TIMESTAMP, tz = Sys.timezone()))
#> # A tibble: 5 × 9
#>             TIMESTAMP SYMBOL    EX PRICE  SIZE  COND   BID BIDSIZ   OFR
#>                <dttm>  <chr> <chr> <dbl> <int> <chr> <dbl>  <int> <dbl>
#> 1 2012-05-04 09:30:00    BAC     T 7.890 38538     F  7.89    523  7.90
#> 2 2012-05-04 09:30:01    BAC     Z 7.885   288     @  7.88  61033  7.90
#> 3 2012-05-04 09:30:03    BAC     X 7.890  1000     @  7.88   1974  7.89
#> 4 2012-05-04 09:30:07    BAC     T 7.890 19052     F  7.88   1058  7.89
#> 5 2012-05-04 09:30:08    BAC     Y 7.890 85053     F  7.88 108101  7.90

11
投票

如果遇到有问题的:

as.numeric(as.character(dat$x))

看看你的小数点符号。如果他们是“”不是“” (例如,“5,3”)以上将不起作用。

一个潜在的解决方案是:

as.numeric(gsub(",", ".", dat$x))

我相信这是在一些非英语国家相当普遍。


6
投票

使用type.convert()rapply()通用方式:

convert_types <- function(x) {
    stopifnot(is.list(x))
    x[] <- rapply(x, utils::type.convert, classes = "character",
                  how = "replace", as.is = TRUE)
    return(x)
}
d <- data.frame(char = letters[1:5], 
                fake_char = as.character(1:5), 
                fac = factor(1:5), 
                char_fac = factor(letters[1:5]), 
                num = 1:5, stringsAsFactors = FALSE)
sapply(d, class)
#>        char   fake_char         fac    char_fac         num 
#> "character" "character"    "factor"    "factor"   "integer"
sapply(convert_types(d), class)
#>        char   fake_char         fac    char_fac         num 
#> "character"   "integer"    "factor"    "factor"   "integer"
© www.soinside.com 2019 - 2024. All rights reserved.