使用美学用不同的颜色通过gep_point（）通过ggplot绘制具有多列（全为1：7行）的数据块

Question

[我打算通过微基准比较两个基于算法的函数f1，f2之间的时序，该基准适用于rpois模拟数据集，其大小为：[1：7]矢量，由10 ^ seq（1,4，by = 0.5）给出，即：

[1]    10.00000    31.62278   100.00000   316.22777  1000.00000  3162.27766 10000.00000

我也在努力绘制它们，并使用了微基准测试所需的所有信息（即min，lq，平均值，中位数，uq和max-是的，除了expr和neval都需要它们）。我需要通过logp-log规模上的ggplot来实现这一点，它具有单个geom_point（）和美观性，每个信息具有不同的颜色，这是我的代码：

library(ggplot2)
library(microbenchmark)  
require(dplyr)  
library(data.table)

datasetsizes<-c(10^seq(1,4,by=0.5))

f1_min<-integer(length(datasetsizes))
f1_lq<-integer(length(datasetsizes))
f1_mean<-integer(length(datasetsizes))
f1_median<-integer(length(datasetsizes))
f1_uq<-integer(length(datasetsizes))
f1_max<-integer(length(datasetsizes))

f2_min<-integer(length(datasetsizes))
f2_lq<-integer(length(datasetsizes))
f2_mean<-integer(length(datasetsizes))
f2_median<-integer(length(datasetsizes))
f2_uq<-integer(length(datasetsizes))
f2_max<-integer(length(datasetsizes))

for(loopvar in 1:(length(datasetsizes)))
{
  s<-summary(microbenchmark(f1(rpois(datasetsizes[loopvar],10), max.segments=3L),f2(rpois(datasetsizes[loopvar],10), maxSegments=3)))

  f1_min[loopvar]    <- s$min[1]
  f2_min[loopvar]    <- s$min[2]
  f1_lq[loopvar]     <- s$lq[1]
  f2_lq[loopvar]     <- s$lq[2]
  f1_mean[loopvar]   <- s$mean[1]
  f2_mean[loopvar]   <- s$mean[2]
  f1_median[loopvar] <- s$median[1]
  f2_median[loopvar] <- s$median[2]
  f1_uq[loopvar]     <- s$uq[1]
  f2_uq[loopvar]     <- s$uq[2]
  f1_max[loopvar]    <- s$max[1]
  f2_max[loopvar]    <- s$max[2]
}

 algorithm<-data.table(f1_min ,f2_min,
                  f1_lq, f2_lq,
                  f1_mean, f2_mean,
                  f1_median, f2_median,
                  f1_uq, f2_uq,
                  f1_max, cdpa_max, datasetsizes) 

ggplot(algorithm, aes(x=algorithm,y=datasetsizes)) + geom_point(aes(color=algorithm)) + labs(x="N", y="Runtime") + scale_x_continuous(trans = 'log10') + scale_y_continuous(trans = 'log10')

我在每个步骤中调试我的代码，并使用“算法”的名称将计算值分配给数据表，效果很好。这是计算得出的游程，这些游程作为[1：7] vecs以及最后的数据集大小（以及1：7）一起传递到数据表中：

> algorithm
            f1_min      f2_min          f1_lq       f2_lq          f1_mean     f2_mean     f1_median f2_median                 f1_uq       f2_uq          f1_max      f2_max datasetsizes
1:       86.745000   21.863000     105.080000   23.978000       113.645630   24.898840         113.543500   24.683000     120.243000   25.565500      185.477000   39.141000     10.00000
2:      387.879000   52.893000     451.880000   58.359000       495.963480   66.070390         484.672000   62.061000     518.876500   66.116500      734.149000  110.370000     31.62278
3:     1608.287000  341.335000    1845.951500  382.062000      1963.411800  412.584590        1943.802500  412.739500    2065.103500  443.593500     2611.131000  545.853000    100.00000
4:        5.964166    3.014524       6.863869    3.508541         7.502123    3.847917           7.343956    3.851285       7.849432    4.163704        9.890556    5.096024    316.22777
5:       23.128505   29.687534      25.348581   33.654475        26.860166   37.576444          26.455269   37.080149      28.034113   41.343289       35.305429   51.347386   1000.00000
6:       79.785949  301.548202      88.112824  335.135149        94.248141  370.902821          91.577462  373.456685      98.486816  406.472393      135.355570  463.908240   3162.27766
7:      274.367776 2980.122627     311.613125 3437.044111       337.287131 3829.503738         333.544669 3820.517762     354.347487 4205.737045      546.996092 4746.143252  10000.00000

微基准计算的值符合预期，但ggplot引发此错误：

Don't know how to automatically pick scale for object of type data.table/data.frame. Defaulting to continuous.
Error: Aesthetics must be either length 1 or the same as the data (7): colour, x

无法解决此问题，任何人都可以让我知道可能出了什么问题，并针对该问题更正打印过程吗？

也在旁注中，我必须从计算的基准中分别提取所有值（最小，lq，平均值，中位数，uq，最大），因为我不能将其作为摘要中的数据表，因为它包含expr（表达式）和neval列。我可以使用

消除其中一列

algorithm[,!"expr"] or algorithm[,!"neval"]

但是我不能一起消除两个，例如

algorithm[,!"expr",!"neval"] or algorithm[,!("expr","neval")] or algorithm[,!"expr","neval"]-像这样的所有可能组合都不起作用（抛出“无效参数类型”错误）。

对此的任何可能的解决方法或解决方案以及绘图（主要内容）都将受到高度赞赏！

Answer 1

您的问题主要是由于您引用的是对象中不存在的ggplot公式中的algorithm列。

根据您的提供，我可以执行以下操作：

algorithm$algorithm <- 1:nrow(algorithm)

ggplot(algorithm, aes(x=algorithm,y=datasetsizes)) + geom_point(aes(color=algorithm)) + labs(x="N", y="Runtime") + 
  scale_x_continuous(trans = 'log10') + scale_y_continuous(trans = 'log10')

并绘制此罚款：

编辑：让我们清理一下...

根据OP的要求，我已经整理了一下他的代码。

您可以做很多事情来提高代码的可读性，但是在这里我将重点放在实践方面。基本上，如果您知道变量最终会这样，则将变量连接到表中。您可以使用许多技巧来将值分配给正确的位置，您将在下面的代码中看到其中的一些。

library(ggplot2)
library(microbenchmark)  
require(dplyr)  
library(data.table)

datasetsizes<-c(10^seq(1,4,by=0.5))
l <- length(datasetsizes)

# make a vector with your different conditions
conds <- c('f1', 'f2')

# initalizing a table from the getgo is much cleaner 
# than doing everything in separate variables
dat <- data.frame(
  datasetsizes = rep(datasetsizes, each = length(conds)), # make replicates for each condition
  cond = rep(NA, l*length(conds))
  )
dat[, c("min", "lq", "mean", "median", "uq", "max")] <- 0
dat$cond <- factor(dat$cond, levels = conds)
head(dat)



for(i in 1:l){ # for the love of god, don't use something as long as 'loopvar' as an iterative 
  # I don't have f1 & f2 so I did what I could...
  s <- summary(microbenchmark(
    "f1" = rpois(datasetsizes[i],10),
    "f2" = {length(rpois(datasetsizes[i],10))}))

  dat[which(dat$datasetsizes == datasetsizes[i]), # select rows of current ds size
      c("cond", "min", "lq", "mean", "median", "uq", "max")] <- s[, !colnames(s)%in%c("neval")]
}

dat <- data.table(dat)
ggplot(dat, aes(x=datasetsizes,y=mean)) + 
  geom_point(aes(color = cond)) + 
  geom_line(aes(color = cond)) + # added to see a clear difference btw conds
  labs(x="N", y="Runtime") + scale_x_continuous(trans = 'log10') + 
  scale_y_continuous(trans = 'log10')

给出下面的图。

使用美学用不同的颜色通过gep_point（）通过ggplot绘制具有多列（全为1：7行）的数据块

问题描述投票：0回答：1

1个回答

最新问题

使用美学用不同的颜色通过gep_point（）通过ggplot绘制具有多列（全为1：7行）的数据块

问题描述 投票：0回答：1

1个回答

最新问题

问题描述投票：0回答：1