在R中分割数据帧并将功能应用于每个部分

问题描述 投票:0回答:2

我有一个具有5列和数千行的大数据框。数据框“ d”如下所示:

Material  Input_Wt  Price
   1        10       13
   3         6       18
   1         9       12
   2        12       15
   3         4        8
   1        14       10

我需要对数据进行回归以预测不同输入权重下每种材料的价格。将应用的回归技术取决于唯一物料编号的记录数。因此,我需要处理与唯一物料编号有关的所有记录。一起。

所以我根据物料编号拆分数据。放入多个csv文件,并使用以下代码将其保存在工作目录中:

SPLIT.DATA <- split(d, d$Material, drop = FALSE)

lapply(names(SPLIT.DATA), function(nm)
write.csv(SPLIT.DATA[[nm]], paste0(nm, ".csv"), row.names = FALSE, quote = FALSE))

文件看起来像:

Material  Input_Wt  Price
   1         10       13
   1          9       12
   1         14       10

Material  Input_Wt  Price
   2         12       15 

Material  Input_Wt  Price
   3         6        18
   3         4         8

然后我使用以下命令将所有这些文件调用到列表中的R上:

fileNames <- Sys.glob("*.csv")

并且分别对每个函数应用了该函数,并将输出附加到单个文件中:

for (fileName in fileNames){
  inp = read.csv(fileName,header = TRUE,sep = ",")
  if (nrow(inp)==3){
    print(RandomForest())
  }else if (nrow(inp)==2){
    print(KNN())
  }else if (nrow(inp)==1){
    print("Insufficient Data")
  }
}

'KNN'和'RandomForest'是我定义的独立函数。

我最终得到所需的输出为:

Material  Input_Wt  Price Predicted_Price
   1         10       13       14.5
   1          9       12       13.8
   1         14       10        9.2
   2         12       15       16.1
   3         6        18       17.5
   3         4         8        9.7

这里的问题是这种方式效率不高。我首先必须将数据帧拆分并写入多个csv文件,然后将它们逐个调用到R上以再次处理它们。

有没有一种方法可以直接完成整个过程而无需将数据帧写入csv文件并再次调用它们?

r loops dataframe apply
2个回答
0
投票

不要拆分您的数据框,只需使用子设置语句:

df[df$Material == 1,]
subset(df, df$Material == 1)

或带包装dplyr

df %>%
  filter(Material == 1)

如果要基于每个组的条目数来应用功能,请尝试类似的操作

df %>%
  group_by(Material) %>%
  mutate(Predicated_Price=case_when(n() == 3 ~ "RandomForest()",
                                    n() == 2 ~ "KNN()",
                                    n() == 1 ~ "Insufficient Data"))

0
投票

您的标题是bytapply的面向对象包装器)的基本定义,与split不同,它保留了一个函数自变量。考虑定义一个函数,该函数接收数据帧作为参数并使用by进行调用。

my_func <- function(inp){
  if (nrow(inp)==3){
    obj <- RandomForest()
  }else if (nrow(inp)==2){
    obj <- KNN()
  }else if (nrow(inp)==1){
    obj <- "Insufficient Data"
  }
  print(obj)

  return(obj)
}

obj_list <- by(df, df$Material, my_func)
© www.soinside.com 2019 - 2024. All rights reserved.