使用plyrmr时在何处声明库

pxiryf3j 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(189)

让我们想象一个 dplyr 我希望与之并行的代码块 plyrmr 在hadoop上：

library(dplyr)
lol <- mtcars %>% group_by(gear) %>% distinct(cyl)

我应该在哪里申报dplyr图书馆？
方案1：

library(dplyr)
library(plyrmr)

lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
distinct(cyl)
return(x)
})

方案2：

library(plyrmr)

lol <- input(mtcars) %|% group(gear) %|% gapply(function(x){
library(dplyr)
distinct(cyl)
return(x)
})

我倾向于认为，由于集群中的每个节点或多或少都是独立的，所以最安全的选择是选项2。
谢谢你的帮助

目前还没有任何答案，快来回答吧！

相关问题