使用自定义文件配置emr节点

aiqt4smr 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(443)

我试图在aws emr hadoop集群上运行带有apachenutch依赖项的jar。问题是nutch找不到插件类（我用 -Dplugin.folders ). 我在本地测试了这个选项，效果很好： java -cp app.jar -Dplugin.folders=./nutch-plugins .
我得到这个错误：

19/07/24 15:42:26 INFO mapreduce.Job: Task Id : attempt_1563980669003_0005_m_000000_2, Status : FAILED
Error: java.lang.RuntimeException: x point org.apache.nutch.net.URLNormalizer not found.
        at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:146)
        at org.apache.nutch.crawl.Injector$InjectMapper.setup(Injector.java:139)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:143)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:796)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:342)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:164)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1698)
        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:158)

我试着把插件复制到 /tmp 文件夹（只是猜测它是共享文件夹）-没有帮助：

hadoop jar app.jar -Dplugin.folders=/tmp/nutch-plugins

然后我试着把它复制到hdfs上-没用：

hadoop fs -cp file:///tmp/nutch-plugins hdfs:///tmp/
hadoop jar app.jar -Dplugin.folders=hdfs:///tmp/nutch-plugins

并尝试将其上传到s3 bucket-没有帮助：

hadoop fs -cp file:///tmp/nutch-plugins s3a:///mybucket/
hadoop jar app.jar -Dplugin.folders=s3a:///mybucket/nutch-plugins

如何为hadoop节点提供nutch插件？我所需要的就是复制插件文件，从集群中的任何节点访问它。

Java hadoop amazon-emr nutch

来源：https://stackoverflow.com/questions/57187465/provisioning-emr-nodes-with-custom-files

2条答案

按热度按时间

iovurdzv1#

在分布式模式下（在hadoop集群中），插件包含在作业文件中( runtime/deploy/apache-nutch-1.x.job ):
从源程序包或从git克隆的nutch源代码开始
调整中的配置 conf/ -注意：配置文件也在作业文件中提供
造坚果( ant runtime )
跑 runtime/deploy/bin/nutch 或者 runtime/deploy/bin/crawl : hadoop jar <jobfile> 调用以启动nutch作业，因此 hadoop 一定在路上。

赞(0）回复(0）举报 2021-05-29

egmofgnx2#

我发现了一种使用emr引导操作为所有节点提供所需文件的方法，因此我创建了一个要复制的脚本 nutch-plugins 从s3桶到 /tmp/nutch-plugins 目录：


# !/bin/bash

aws s3 cp --recursive s3://mybucket/nutch-plugins/ /tmp/nutch-plugins/

然后将这个脚本上传到s3 bucket，并在配置集群时添加了“custombootstrap action”。可以通过aws web控制台（emr高级模式）或cli参数添加：

aws emr create-cluster \
  # ... \
  --bootstrap-actions Path="s3://mybucket/bootstrap.sh"

在这些步骤之后，任何节点都可以访问插件文件 /tmp/nutch-plugins :

hadoop jar app.jar -Dplugin.folders=/tmp/nutch-plugins

赞(0）回复(0）举报 2021-05-29

我来回答

使用自定义文件配置emr节点

2条答案

相关问题

热门标签

最新问答