我试图在一个大表上执行此操作,以计算data.table X中具有a和b的不同组合的行. Y - aggregate(c ~ a+b,X,length) 虽然RAM使用率仍然存在,但它仍然需要永远(我在30分钟后停止). 然后我尝试手动循环
Y <- aggregate(c ~ a+b,X,length)
虽然RAM使用率仍然存在,但它仍然需要永远(我在30分钟后停止).
然后我尝试手动循环遍历b的值并仅在a上聚合(技术上仍然聚合在b上,但每次都使用单个值b):
sub_agg <- list() unique_bs <- unique(X$b) for (b_it in unique_bs){ sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,subset(X, b == b_it),length) } Y <- do.call(rbind, sub_agg )
我在3分钟内完成了.
我可以更进一步完全摆脱聚合,只对子集进行操作.
聚合效率是否低于嵌套循环和子集上的操作,或者这是一个特例吗?
聚合通常是占用时间最多的代码部分,所以我现在想要总是尝试循环,我想更好地理解这里发生的事情.
附加信息:
是的,聚合效率低于您在那里使用的循环,因为:X has 20 million rows
50 distinct values for b
15 000 distinct values for a
>当数据点数量增加时,聚合变得不成比例地变慢.您的第二个解决方案在小子集上使用聚合.其中一个
原因是聚合取决于排序,并且排序不是在O(n)时间内完成的.
> aggregate还在内部使用expand.grid,它创建一个数据框,其中包含变量a和b中所有唯一值的所有可能组合.您可以在aggregate.data.frame的内部代码中看到这一点.随着观察数量的增加,这个功能也变得不成比例地变慢.
>编辑:我的最后一点并没有真正意义,因为你将数据框中的所有内容组合在一起.
也就是说,绝对没有理由在这里使用聚合.我只需使用表来到数据框Y:
thecounts <- with(X, table(a,b)) Y <- as.data.frame(thecounts)
此解决方案比使用聚合提供的解决方案快得多.在我的机器上68次准确…
基准测试:
test replications elapsed relative 1 aggloop() 1 15.03 68.318 2 tableway() 1 0.22 1.000
用于基准测试的代码(注意我将所有内容都设置得更小,以便不阻止我的R
时间过长):
nrows <- 20e5 X <- data.frame( a = factor(sample(seq_len(15e2), nrows, replace = TRUE)), b = factor(sample(seq_len(50), nrows, replace = TRUE)), c = 1 ) aggloop <- function(){ sub_agg <- list() unique_bs <- unique(X$b) for (b_it in unique_bs){ sub_agg[[length(sub_agg)+1]] <- aggregate(c ~ a + b,subset(X, b == b_it),length) } Y <- do.call(rbind, sub_agg ) } tableway <- function(){ thecounts <- with(X, table(a,b)) Y <- as.data.frame(thecounts) } library(rbenchmark) benchmark(aggloop(), tableway(), replications = 1 )