返回在R中建立“最接近的值”的行

Question

我有一个具有不同ID的数据框，我想创建一个子组，其中：对于每个ID，我将只获得一行，其中最接近的值为变量Y中的0.5。

这是我的数据框：

df <- data.frame(ID=c("DB1", "BD1", "DB2", "DB2", "DB3", "DB3", "DB4", "DB4", "DB4"), X=c(0.04, 0.10, 0.10, 0.20, 0.02, 0.30, 0.01, 0.20, 0.30), Y=c(0.34, 0.49, 0.51, 0.53, 0.48, 0.49, 0.49, 0.50, 1.0) )

这就是我想要的

ID X Y DB1 0.10 0.49 DB2 0.10 0.51 DB3 0.30 0.49 DB4 0.20 0.50

我知道我可以使用类似这样的东西添加ddply过滤器

ddply(df, .(ID), function(z) { z[z$Y == 0.50, ][1, ] }) 如果在Y中总是有0.50的值，这将工作正常，但事实并非如此。

如何将==更改为“最接近”0.5，还是可以使用另一个函数？

先感谢您！

Answer 1

您需要计算0.5之差，然后保持最小值。一种方法是这样做：

ddply(df, .(ID), function(z) {
  z[abs(z$Y - 0.50) == min(abs(z$Y - 0.50)), ]
})

请注意，我上面编码的方式，省略你的[1, ]，如果两行完全绑定，将保留。

它应该没问题，因为我们在==的任何一侧进行完全相同的计算，但我经常担心数值精度问题，所以我们可以改为使用which.min。请注意，which.min将在平局的情况下返回第一个最小值。

ddply(df, .(ID), function(z) {
  z[which.min(abs(z$Y - 0.50)), ]
})

另一种强有力的方法是按0.5的差异对数据帧进行排序，并保留每个ID的第一行。此时我将转换到dplyr，当然你可以使用dplyr或plyr::ddply来实现这些方法。

library(dplyr)
df %>% group_by(ID) %>%
  arrange(abs(Y - 0.5)) %>%
  slice(1)

我不确定arrange如何处理关系。有关更多方法，请参阅Get rows with minimum of variable, but only first row if multiple minima，并始终使用abs(Y - 0.5)作为最小化的变量。

返回在R中建立“最接近的值”的行

问题描述投票：3回答：1

1个回答

最新问题

返回在R中建立“最接近的值”的行

问题描述 投票：3回答：1

1个回答

最新问题

问题描述投票：3回答：1