是否可以使用conda环境作为hadoop流作业的“virtualenv”(在python中)？

rggaifut 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(418)

我们目前正在使用luigi、mrjob和其他框架来运行使用python的hadoo流作业。我们已经能够使用自己的virtualenv来发布这些作业，因此节点中没有安装特定的python依赖项（请参阅本文）。我想知道是否有人对anaconda/conda package manager做过类似的工作。
警察。我也知道conda cluster，不过它看起来是一个更复杂/更复杂的解决方案（它位于付费墙后面）。

hadoop python anaconda mrjob

来源：https://stackoverflow.com/questions/29827135/is-is-possible-to-use-a-conda-environment-as-virtualenv-for-a-hadoop-streaming

2条答案

按热度按时间

vawmfj5a1#

2019年更新：
答案是肯定的，方法是使用康达包
https://conda.github.io/conda-pack/

赞(0）回复(0）举报 2021-06-03

pxy2qtax2#

我不知道如何将conda环境打包到tar/zip中，然后将其解压到另一个盒子中并准备好使用，就像您提到的示例中那样，这可能是不可能的。至少在所有工作节点中没有anaconda，在不同的操作系统之间移动也可能有问题。
anaconda集群是为了解决这个问题而创建的（免责声明：我是anaconda集群开发人员），但是它使用了更复杂的方法，基本上我们使用配置管理系统（salt）在集群中的所有节点中安装anaconda并控制conda环境。
我们使用配置管理系统是因为我们还部署了hadoop堆栈（spark和它的朋友），我们需要针对大型集群，但实际上，如果您只需要部署anaconda，并且没有太多节点，那么您应该能够使用fabric（anaconda集群在某些部分也使用fabric）并在普通笔记本电脑上运行它。
如果您对anaconda cluster感兴趣，请参阅以下文档：http://continuumio.github.io/conda-cluster/

赞(0）回复(0）举报 2021-06-03

我来回答

是否可以使用conda环境作为hadoop流作业的“virtualenv”(在python中)？

2条答案

相关问题

热门标签

最新问答