hadoop和google云存储连接器问题

qmb5sa22 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(511)

我已经通过googleconsole中的deployments接口部署了hadoop集群(hadoop 2.x版）
我的任务是过滤存储在一个google存储（gs）存储桶中的数据，并将结果放到另一个存储桶中。因此，这是一个只有Map的简单python脚本作业。请注意，集群和输出bucket位于同一个区域（eu）。
利用google cloud storage connector，我运行以下流式处理作业：

hadoop jar /home/hadoop/hadoop-install/share/hadoop/tools/lib/hadoop-streaming-2.4.1.jar \
-D mapreduce.output.fileoutputformat.compress=true \
-D mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec \
-D mapreduce.job.reduces=0 \
-file file_1 \
-file mymapper.py \
-input gs://inputbucket/somedir/somedir2/*-us-* \
-output gs://outputbucket/somedir3/somedir2 \
-inputformat org.apache.hadoop.mapred.TextInputFormat \
-mapper mymapper.py

所有Map程序都会处理数据并将结果存储在gs的临时目录中，如下所示：

gs://outputbucket/somedir3/somedir2/_temporary/1/mapper-0000/part-0000.gz

所有Map程序完成后，作业进度挂起为100%Map，减少0%。通过gsutil查看输出bucket，我看到结果文件被复制到目标目录：

gs://outputbucket/somedir3/somedir2

这个过程需要很长的时间，并扼杀了使用hadoop的全部好处。我的问题是：
1）是已知的问题还是我做错了什么？我找不到任何相关信息。
2）我说的正常情况下hdfs会将这些文件移动到目标dir，但是gs不能执行移动，因此文件会被复制，对吗？
3）我能做些什么来避免这种模式？

hadoop google-cloud-storage hadoop-streaming

来源：https://stackoverflow.com/questions/33543409/issue-with-hadoop-and-google-cloud-storage-connector

1条答案

按热度按时间

rdlzhqv91#

您几乎肯定会遇到“slow fileoutputcommitter”问题，该问题会影响hadoop2.0到2.6（含2.6），并在2.7中修复。
如果你想在google云平台上寻找一个不错的托管hadoop选项，你应该考虑google云dataproc（这里是文档），我们在那里维护发行版，以确保我们快速获得与google云平台相关的补丁。dataproc确实配置了 mapreduce.fileoutputcommitter.algorithm.version 所以最后的任务很快。
对于更多的“自己动手”，您可以使用我们的命令行 bdutil 工具，该工具还具有使用fast fileoutputcommitter的最新更新。

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop和google云存储连接器问题

1条答案

相关问题

热门标签

最新问答