我如何对数据表中特定列的不同子集取平均值？

Question

给出一个示例数据框：

dt <- data.table(value=1:10,start=c(1,4,5,8,6,3,2,1,9,4),finish=c(3,7,8,9,10,10,4,10,10,8))

我想添加一个新列，其名称可能为mean_column。此列的第i行应具有值

mean( value[ seq( from = start[i], to=finish[i] ) ] )

我正在处理的真实数据有2000万行，所以我需要找到一种快速的方法来进行此计算。

编辑：data.table中的value列不必像示例中那样是有序序列。此列中的每个值都可以为正数。

Answer 1

这里是完成平均值的这一特定任务的另一种方法。 “ mean_column”的值可以计算为(running_sum[finish[i]] - running_sum[start[i] - 1]) / (finish[i] - start[i] + 1)：

Answer 2

这里是基本的R解决方案。

Answer 3

这对您有用吗？