如何创建R输出喜欢混淆矩阵表

问题描述 投票:1回答:1

我有两个目录。第一个目录的名称为“ model”,第二个目录的名称为“ test”,两个目录中的文件列表相同,但内容不同。两个目录中的文件总数也相同,即37个文件。

我显示了文件之一中内容的示例。

模型目录中的第一个文件

名称文件:Model_A5B45

                               data
1  papaya | durian | orange | grapes
2                             orange
3                             grapes
4                    banana | durian
5                             tomato
6                     apple | tomato
7                              apple
8                        mangostine 
9                         strawberry
10                strawberry | mango

dput输出:

structure(list(data = structure(c(7L, 6L, 4L, 3L, 10L, 2L, 1L, 
5L, 8L, 9L), .Label = c("apple", "apple | tomato", "banana | durian", 
"grapes", "mangostine ", "orange", "papaya | durian | orange | grapes", 
"strawberry", "strawberry | mango", "tomato"), class = "factor")), .Names = "data", class = "data.frame", row.names = c(NA, 
-10L))

测试目录中的第二个文件

名称文件:Test_A5B45

                               data
1                             apple
2            orange | apple | mango
3                             apple
4                            banana
5                            grapes
6                            papaya
7                            durian
8 tomato | orange | papaya | durian

输出输出:

structure(list(data = structure(c(1L, 5L, 1L, 2L, 4L, 6L, 3L, 
7L), .Label = c("apple", "banana", "durian", "grapes", "orange | apple | mango", 
"papaya", "tomato | orange | papaya | durian"), class = "factor")), .Names = "data", class = "data.frame", row.names = c(NA, 
-8L))

我想计算相交百分比和目录测试中文件到目录模型中文件的数据的除外。

这仅是两个文件(Model_A5B45和Test_A5B45)的代码示例。

library(dplyr)

data_test <- read.csv("Test_A5B45")
data_model <- read.csv("Model_A5B45")
intersect <- semi_join(data_test,data_model)
except <- anti_join(data_test,data_model)
except_percentage <- (nrow(except)/nrow(data_test))*100
intersect_percentage <- (nrow(intersect)/nrow(data_test))*100
sprintf("%s/%s",intersect_percentage,except_percentage) 

输出:"37.5/62.5"

我的问题是,我想将我的代码实现到所有文件(在两个目录中都循环),因此输出看起来像是混淆矩阵。

我的预期输出示例:

##             y
##              Model_A5B45       Model_A6B46    Model_A7B47
##   Test_A5B45     37.5/62.5          value         value
##   Test_A6B46      value             value         value
##   Test_A7B47      value             value         value

我的回答:

我已经创建了可以处理这些东西的代码,但是我仍然不知道如何使输出看起来像混淆矩阵。

这是我的代码:(我不知道这是否有效,我使用for循环)

f_performance_testing <- function(data_model_path, data_test_path){
  library(dplyr)
  data_model <- read.csv(data_model_path, header=TRUE)
  data_test <- read.csv(data_test_path, header=TRUE)
  intersect <- semi_join(data_test,data_model)
  except <- anti_join(data_test,data_model)
  except_percentage <- (nrow(except)/nrow(data_test))*100
  intersect_percentage <- (nrow(intersect)/nrow(data_test))*100

  return(list("intersect"=intersect_percentage,"except"=except_percentage))
}


for (model in model_list){
  for (test in test_list){
    result <- f_performance_testing(model,test)
    intersect_percentage <- round(result$intersect,3)
    except_percentage <- round(result$except,3)
    final_output <- sprintf("intersect : %s | except : %s",intersect_percentage,except_percentage) 
    cat(print(paste(substring(model,57),substring(test,56), final_output,sep=",")),file="outfile.txt",append=TRUE,"\n")
    print("Writing to file.......")
  }
}

输出为:

Model_A5B45,Test_A5B45, 37.5/62.5 
Model_A5B45,Test_A6B46, value
Model_A5B45,Test_A7B47, value
Model_A6B46,...... 
Model_A7B47,.....
...............
......
....

如何将输出转换为混淆矩阵表?

r for-loop dataframe plyr dplyr
1个回答
3
投票

这不会直接回答您的问题,但希望能为您提供足够的信息以找到您自己的解决方案。

我建议创建类似以下的函数:

myFun <- function(model, test, datasource) {
  model <- datasource[[model]]
  test <- datasource[[test]]
  paste(rev(mapply(function(x, y) (x/y)*100, 
                   lapply(split(test, test %in% model), length), 
                   length(test))), 
        collapse = "/")
}

此函数将与两列data.frame一起使用,其中的列表示“ test”和“ model”的所有组合values(为什么当字符[ C0]就足够了吗?)

这是此类data.frame的示例(其他示例数据位于答案的末尾。)>]

vector

接下来,为您的模型和测试创建一个命名为data.frame的文件。如果您已使用models <- c("model_1", "model_2", "model_3") tests <- c("test_1", "test_2", "test_3") A <- expand.grid(models, tests, stringsAsFactors = FALSE) 读取了数据,则可能仍然有可以使用的名称。

list

现在,计算相关值。在这里,我们可以使用lapply循环浏览每一行并执行相关的计算。

dataList <- mget(c(models, tests))

最后,您将数据从“长”格式apply转换为“宽”格式。

A$value <- apply(A, 1, function(x) myFun(x[1], x[2], dataList))

以下是一些示例数据。请注意,它们是基本字符向量,而不是reshape

reshape(A, direction = "wide", idvar = "Var1", timevar = "Var2")
#      Var1 value.test_1 value.test_2 value.test_3
# 1 model_1        75/25          100        75/25
# 2 model_2        50/50        50/50    62.5/37.5
# 3 model_3    62.5/37.5        50/50    87.5/12.5

在现实世界的应用程序中,您可能会做类似的事情:

data.frame

但是,这纯粹是基于您在问题中作为工作代码共享的内容(例如,没有文件扩展名的csv文件)。

© www.soinside.com 2019 - 2024. All rights reserved.