我有一套公司要处理。每家公司需要一段时间来处理,所以我想并行。我有两个问题:
我是否可以在多个r示例中加载相同的r工作区映像(例如包含公司回报),并将结果输出到csv文件(附加)中,从而以这种方式显式地并行化?
一定有更好的办法。我环顾了hpc任务视图,我认为像mpi这样的东西对于这个任务来说有点太复杂了?有什么建议吗?
我就是这么想的。这一点被大大简化,但表达得非常清楚:
require(data.table)
dtb = data.table(data.frame(a=1:100, id=1:2), key="id")
save(dataf, file="mydata.RData")
# now launch a session that accepts the id argument
args = commandArgs(trailingOnly = TRUE)
theid = as.integer(args[1])
load("mydata.RData")
r = dtb[id == theid,sum(a)]
write.csv(r, "myfile.csv", append=TRUE)
这显然会工作得很快,但我运行每个公司的滚动回归很多,所以它有点慢,但每个过程是独立的。请注意,我想在lsf网格上运行这个,不同的节点启动会话。目前我只提交了几个参数的工作。我想要个更好的方法。
暂无答案!
目前还没有任何答案,快来回答吧!