我有一个包含很多hadoop fs命令的shell脚本,比如:
hadoop fs -mkdir /tmp hadoop fs -copyFromLocal a b hadoop fs -chmod 755 /a hadoop fs -chown hdfs /c ...
每次执行命令时,它都会创建一个需要一些时间的新连接。对于这样的脚本,是否可以(不使用javaapi)停止每次在关闭/打开连接上浪费时间?
6qqygrtg1#
我发现,性能问题更多地与启动一个新的jvm有关,而不是与连接本身有关。我所做的是编写使用webhdfs restapi的小型python程序(带有请求或urllib2模块),它比围绕hadoop fs编写脚本快得多。http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html
1条答案
按热度按时间6qqygrtg1#
我发现,性能问题更多地与启动一个新的jvm有关,而不是与连接本身有关。我所做的是编写使用webhdfs restapi的小型python程序(带有请求或urllib2模块),它比围绕hadoop fs编写脚本快得多。
http://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html