我想在我的苹果mac上编写mapreduce代码(理想情况下使用python),以便在hadoop沙盒(例如hortonworks或cloudera)上进行流式处理。
理想情况下,我的开发设置是使用applemacpython环境&hadoopvmsandbox(稍后是同一网络上的集群)。
虽然有很多关于如何从hadoop集群的节点内连接或流式传输代码的描述(例如从namenode等),但我不清楚从集群外做什么。
e、 我想我需要安装一些hadoop客户端库?这些图书馆从哪里来?
如何安装它们?
哪种类型的python包工作得最好?
我应该使用什么ip地址来流式处理我的python代码?
任何帮助-任何链接到教程覆盖这将是太好了!
1条答案
按热度按时间dgiusagp1#
正确的做法是需要安装客户端库才能提交作业。
不幸的是,尝试在OSX中提交流媒体作业可能不是最佳选择。我这么说是因为没有任何厂商支持的OSX软件包,所以它不是最容易安装hadoop的平台,至少以厂商支持的方式。如果你已经准备好安装沙盒了,只需在你的mac上写下作业并提交到虚拟机中。
如果必须的话,也可以选择安装。你可以使用自制软件,尽管我不确定将安装什么版本,或者是否有特定于供应商的公式可用。您也可以自己下载并构建hadoop,例如在这里使用cloudera tarballs。完成客户机设置后,必须配置mapred-site.xml、core-site.xml和hdfs-site.xml,以便与运行在沙盒vm中的集群进行通信。