让我们想象一个 dplyr
我希望与之并行的代码块 plyrmr
在hadoop上:
library(dplyr)
lol <- mtcars %>% group_by(gear) %>% distinct(cyl)
我应该在哪里申报dplyr图书馆?
方案1:
library(dplyr)
library(plyrmr)
lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
distinct(cyl)
return(x)
})
方案2:
library(plyrmr)
lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
library(dplyr)
distinct(cyl)
return(x)
})
我倾向于认为,由于集群中的每个节点或多或少都是独立的,所以最安全的选择是选项2。
谢谢你的帮助
暂无答案!
目前还没有任何答案,快来回答吧!