[我有一个模型,在这个模型中我试图预测标题为R1的第11列。我的数据如下所示:
A1 A2 A3 A8 A9 A10 A11 A12 A14 A15 R1
1 1 30.83 0.000 1.250 1 0 1 1 202 0 1
2 0 58.67 4.460 3.040 1 0 6 1 43 560 1
3 0 24.50 0.500 1.500 1 1 0 1 280 824 1
我的代码如下:
data <- read.delim("credit_card_data-headers.txt")
m <- dim(data)[1]
#val grabs a random 3rd
val <- sample(1:m, size = round(m/3), replace = FALSE,
prob = rep(1/m, m))
#data.learn gets assiged 2/3rds of the whole data
data.learn <- data[-val,]
#data.valid gets the left over 1/3rd
data.valid <- data[val,]
#build up the k nearest neighbor predictions for the R1 column
data.kknn <- kknn(R1~., data.learn, data.valid, k=3, distance = 1,
kernel = "triangular", scale = TRUE)
我认为我在正确地执行KKNN,但是我不知道如何将结果与data.valid集进行比较,以查看成功/失败的百分比。我正在尝试这样做:
fit <- fitted(data.kknn)
fit
但是它给了我这个适合我的'合适':
[1] 0.00000000 0.63903156 0.99028609 0.20950708 0.00000000 0.42680166 0.03538045 1.00000000 0.59672292 1.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000
我不知道如何解释这个连续的值向量。我如何进行某种类型的比较以查看我的模型有多好? (类似于混淆矩阵或正确的百分比)
我知道了。我只是对这些值进行了四舍五入,似乎可以找到。