R中的并行化“查找”循环

Question

R中有几个软件包可以简化并行运行代码，如foreach和future。其中大多数都有像lapply或for循环的构造：它们一直持续到所有任务完成。

是否有简单的Find并行版本？也就是说，我想并行运行几个任务。我不需要全部完成，我只需要完成第一个完成（可能具有特定结果）。之后，其他任务可以被杀死，或者自己完成。

概念代码：

hunt_needle <- function (x, y) x %in% (y-1000):y

x <- sample.int(1000000, 1) 

result <- parallel_find(seq(1000, 1000000, 1000), hunt_needle)
# should return the first value for which hunt_needle is true

Answer 1

您可以使用共享内存，以便进程可以相互通信。为此，你可以使用package bigstatsr（免责声明：我是作者）。

选择块大小并执行：

# devtools::install_github("privefl/bigstatsr")
library(bigstatsr)

# Data example
cond <- logical(1e6)
cond[sample(length(cond), size = 1)] <- TRUE

ind.block <- bigstatsr:::CutBySize(length(cond), block.size = 1000)
cl <- parallel::makeCluster(nb_cores())
doParallel::registerDoParallel(cl)

# This value (in an on-disk matrix) is shared by processes
found_it <- FBM(1, 1, type = "integer", init = 0L)

library(foreach)
res <- foreach(ic = sample(rows_along(ind.block)), .combine = 'c') %dopar% {
  if (found_it[1]) return(NULL)
  ind <- bigstatsr:::seq2(ind.block[ic, ])
  find <- which(cond[ind])
  if (length(find)) {
    found_it[1] <- 1L
    return(ind[find[1]])
  } else {
    return(NULL)
  }
}

parallel::stopCluster(cl)

# Verification
all.equal(res, which(cond))

基本上，当找到解决方案时，您不再需要进行一些计算，而其他人知道它，因为您在1中放置了found_it，这是在所有进程之间共享的。

由于您的问题不可重复且我不了解您需要的所有内容，因此您可能需要稍微调整此解决方案。

R中的并行化“查找”循环

问题描述投票：1回答：1

1个回答

最新问题

R中的并行化“查找”循环

问题描述 投票：1回答：1

1个回答

最新问题

问题描述投票：1回答：1