我已经在Windows7机器上安装了Hadoop2.5.2。需求是在hadoop上加载平面文件,处理平面文件上的数据并从中呈现一个报告。确定的技术是hadoop2.5.2、spark和hive。然而,在windows上的配置单元中,我们需要使用cygwin(因为cygwin是为unix环境开发的,要使用它,我们需要cygwin)。这里的问题是,我们是否可以在没有cygwin的情况下在windows上使用hive,或者我们是否有其他方法来替代windows上的hive。我们不想使用cygwin的原因是我们需要在cygwin下拥有所有的安装和文件。
谢谢,桑塔
2条答案
按热度按时间8mmmxcuj1#
hadoop构建在linux之上。linux是一个开放源代码,您可以使用linux库和其他开放源代码基础设施来创建新的“开放源代码”工具和系统。它是在linux上的,这就是为什么它是开源的,而且可以免费下载,否则我们就得花很多钱来买它。你也可以在windows上运行hadoop。
ApacheHadoop(2.2以后的版本)支持windows,但它仍然没有在该配置中部署。
原因:
1.apache hadoop在windows上的成熟度
2.成本效益(想象几个k节点x许可证)
3.运行不受支持的软件也是如此!
4.这导致企业回避hadoop本身(cdh、hdp、mapr、pivotal hd正在填补这一空白)。
5.那些不回避ApacheHadoop的组织,在linux上也不会这样做。
对于配置单元,从cloudera下载hadoop cluster,比如构建在linux操作系统上的cdh3、4、5。它们已经安装了配置单元。
使用vmware或任何其他工具在windows中运行machine by cloudera。
您的需求解决方案:
第一种选择你可以自己安装hadoop
第二种选择使用虚拟机由任何供应商(cloudera,horton works等)在该机器上你可以很容易地安装hive,但我认为他们提供的基本工具,包括hive也。
例如,cloudera的cdh3提供了基本的机器配置单元0.8(这不是最新的)
jaql4c8m2#
是的,你可以。请记住,教程告诉您使用cygwin来运行脚本,因为配置单元社区在执行windowsbat或cmd文件之前很懒惰。
sqoop也会发生类似的情况。它在windows上运行,但是windows脚本有一些bug。
只要在hadoop上配置hive,依赖关系就会得到解决。如果您需要运行命令,您可以在linux中这样做,然后获得生成的工件。