有人能解释一下如何在远程机器上为hadoop设置开发环境吗。大多数在线教程似乎都集中在本地模式或伪分布式模式上,其中包括在本地或通过cygwin安装hadoop。我想避免这样。理想情况下,我希望通过eclipse将代码推送到远程集群,而不必在本地机器上安装hadoop。
我已经有一个集群,可以通过eclipse-hadoop插件访问文件系统,但是如何向远程集群提交作业呢?我应该更改eclipse插件中的哪些参数(我正确设置了namenode、job tracker location,但高级配置显示了datanode directory、datanode location和许多其他设置)。
谢谢
1条答案
按热度按时间eeq64g8w1#
如果原因是为了远离cygwin并使用本机工具,那么我的解决方案是创建一个虚拟机,通过ambari将centos6.6的桌面版本安装为hdp2.2作为单节点示例,并在桌面上使用所有本机开发工具。一旦我的代码被开发出来,我就有了一个部署脚本,它将我的代码推送到集群中,并在cli中执行。连接通常是保证与nat或类似,所以它可以在工作计算机上使用相对不受限制的全屏模式。
拥有一个原生的centosvm意味着我编写的所有代码都是在与集群完全相同的os和hdp版本上开发的。这也意味着我在使用cli时不必处理服务器延迟(这让人麻木)。