为什么R将这个data.frame对象当作一个列表?

问题描述 投票:1回答:2

我正在尝试通过使用lda()包将R中的几个变量除以一个额外的缩放变量(此处未显示)而对我创建的data.frame进行最小判别分析(MASS)。下面是一个示例数据集和一个我正在使用的代码示例版本,该代码再现了该错误。

class   Var1    Var2    Var3    Var4
2   0.732459522 0.973014649 0.612952968 0.127216654
3   0.76692254  0.990230286 0.629448709 0.104675506
2   0.847487002 1.021663778 0.649046794 0.187175043
3   0.823583181 1.050274223 0.673674589 0.170018282
1   0.796279894 1.058458813 0.583702391 0.222320638
2   0.925681255 1.009909166 0.636663914 0.205615194
2   0.627334465 1.074702886 0.59762309  0.23344652
3   0.980376124 1.011447261 0.646770237 0.232215863
3   0.79342723  1.048826291 0.750234742 0.248826291
1   0.960655738 1.042622951 0.6 0.262295082
2   0.963788301 1.005571031 0.590529248 0.233983287
1   1.013157895 1.049342105 0.657894737 0.223684211
2   1.211538462 1.060897436 0.733974359 0.288461538
3   1.25083612  1.023411371 0.759197324 0.311036789
3   0.959196485 1.009416196 0.635907094 0.12868801
1   0.823681936 1.005185825 0.590319793 0.219533276
2   0.777508091 0.998381877 0.624595469 0.165048544
3   0.749114103 0.985825656 0.585400425 0.133947555
1   0.816999133 1.036426713 0.604509974 0.197745013
data<-read.csv("data.csv",header=TRUE)
data_train<-na.omit(data)
scores_train<-data_train[-c(1)]
lda_train<-lda(data_train$class~scores_train,prior = c(1,1,1)/3,CV=TRUE)
scores_test<-data[-c(1)]
lda_test<-predict(lda_train,as.data.frame(scores_test),prior = c(1,1,1)/3)

lda_train<-lda(data_train$class~as.matrix(scores_train),prior = c(1,1,1)/3,CV=TRUE)
class(scores_train)
class(scores_test)

[当我尝试使用数据集执行lda时,出现以下错误消息。

Error in model.frame.default(formula = data_train$class ~ scores_train) : 
  invalid type (list) for variable 'scores_train'

通过使用as.matrix将数据强制转换为矩阵格式,可以强制数据工作。值得注意的是,尝试使用as.data.frame()data.frame()做类似的事情是行不通的。但是,当我尝试将结果判别函数应用于总数据集时,我得到以下消息...

Error in UseMethod("predict") : 
  no applicable method for 'predict' applied to an object of class "list"

但是,当我检查使用class()的对象的类时,它说两个对象都是data.frame格式。我检查了数据集,以查看是否有任何不完整的行或列可能导致其将它们视为一系列列表而不是单个data.frame,但是没有缺失值。同样,它似乎不是由于任何变量的名称引起的。

我不确定为什么R将对象视为列表而不是data.frame(从而导致判别分析失败),特别是因为R识别出对象属于data.frame类。

r lda mass
2个回答
3
投票

对于lda,您必须提供公式,因此,如果提供数据框,则下面的方法适用:

lda_train<-lda(class ~ .,data=data_train,prior = c(1,1,1)/3,CV=TRUE)

否则,如果您不提供公式,请执行:

lda(grouping=data_train$class,x=data_train[,-1],prior = c(1,1,1)/3, CV=TRUE)

当您使用CV = TRUE时,它使用留一法交叉验证来为您提供后验,但是很遗憾,它无法保留模型,您可以看到它:

class(lda_train)
[1] "list"

要预测,您需要使用CV = FALSE进行训练。您提供的data.frame或矩阵的列与训练所用的列相同,在您的情况下为:

lda_train<-lda(class ~ .,data=data_train,prior = c(1,1,1)/3)
data_test=data.frame(Var1=rnorm(10),Var2=rnorm(10),
Var3=rnorm(10),Var4=rnorm(10))
predict(lda_train,data_test)

对于lda中的MASS,没有从训练中获得的超参数,所以也许您想详细说明为什么需要交叉验证?

如果您想探索它,这是对LDA进行交叉验证的方法(请注意,使用LDA2:]

data_train$class =factor(data$class)
lda_train = train(class ~ .,data=data_train,method="lda2",
trControl = trainControl(method = "cv"))
predict(lda_train,data_test)

1
投票

formula参数正在寻找一个结构化的公式来声明变量之间的关系。每个命名的变量必须是一个向量。您可以在声明数据参数的同时传递同一数据帧中的所有名称:

lda(class ~ Var1 + Var2 + Var3 + Var4, 
    data = data, prior = c(1,1,1)/3, CV=TRUE)

或分别传递各列:

lda(data$class ~ scores_train$Var1 +  
      scores_train$Var2 + 
      scores_train$Var3 + 
      scores_train$Var4, 
    prior = c(1,1,1)/3, CV=TRUE)

关于predict不接受它作为对象的问题,您需要将CV更改为FALSE,否则它仅返回一个列表(不是lda需要的predict对象):

model <- lda(data$class ~ scores_train$Var1 +  
      scores_train$Var2 + 
      scores_train$Var3 + 
      scores_train$Var4, 
    prior = c(1,1,1)/3, CV=FALSE)

predict(model)
© www.soinside.com 2019 - 2024. All rights reserved.