将外部jar设置为hadoop类路径

tv6aics1 于 2021-06-02 发布在 Hadoop

关注(0)|答案(5)|浏览(397)

我正在尝试将外部jar设置为hadoop类路径，但到目前为止还没有成功。
我有以下设置
$hadoop版本
hadoop 2.0.6-alpha subversionhttps://git-wip-us.apache.org/repos/asf/bigtop.git -r ca4c88898f95aaab3fd85b5e9c194ffd647c2109由jenkins于2013-10-31t07:55z从源代码处编译，校验和为95e88b2a9589fa69d6d5c1dbd48d4e此命令使用/usr/lib/hadoop/hadoop-common-2.0.6-alpha.jar运行
类路径
$echo$hadoop\u类路径
/home/tom/workspace/libs/opencsv-2.3.jar
我可以看到上面的hadoop\u类路径已经被hadoop获取了
$hadoop类路径
/etc/hadoop/conf:/usr/lib/hadoop/lib/：/usr/lib/hadoop///：/home/tom/workspace/libs/opencsv-2.3.jar:/usr/lib/hadoop-hdfs/：/usr/lib/hadoop-hdfs/lib/：/usr/lib/hadoop-yarn/lib/：/usr/lib/hadoop-yarn///：/usr/lib/hadoop-mapreduce/lib/：/usr/lib/hadoop-mapreduce///
命令
$sudo hadoop jar flightsbycarrier.jar flightsbycarrier/user/root/1987.csv/user/root/result
我也尝试了-libjars选项
$sudo hadoop jar flightsbycarrier.jar flightsbycarrier/user/root/1987.csv/user/root/result-libjars/home/tom/workspace/libs/opencsv-2.3.jar
堆栈跟踪
14/11/04 16:43:23 info mapreduce.job:正在运行作业：作业\u 1415115532989 \u 0001 14/11/04 16:43:55 info mapreduce.job:作业作业\u 1415115532989 \u 0001正在uber模式下运行：false 14/11/04 16:43:56 info mapreduce.job:Map0%减少0%14/11/04 16:45:27 info mapreduce.job:Map50%减少0%14/11/04 16:45:27 info mapreduce.job:任务id:尝试\u 1415115532989 \u 0001 \u m \u000001 \u 0，状态：失败错误：java.lang.classnotfoundexception:au.com.bytecode.opencsv.csvparser at java.net.urlclassloader$1.run（urlclassloader）。java:366)在java.net.urlclassloader$1.run（urlclassloader。java:355)位于java.net.urlclassloader.findclass（urlclassloader）的java.security.accesscontroller.doprivileged（本机方法）。java:354)在java.lang.classloader.loadclass（类加载器。java:425)在sun.misc.launcher$appclassloader.loadclass（launcher。java:308)在java.lang.classloader.loadclass（classloader。java:358)在flightsbycarriermapper.map（flightsbycarriermapper。java:19)在flightsbycarriermapper.map（flightsbycarriermapper。java:10)在org.apache.hadoop.mapreduce.mapper.run（mapper。java:144)在org.apache.hadoop.mapred.maptask.runnewmapper（maptask。java:757)在org.apache.hadoop.mapred.maptask.run（maptask。java:339)在org.apache.hadoop.mapred.yarnchild$2.run（yarnchild。java:158)位于java.security.accesscontroller.doprivileged（本机方法）javax.security.auth.subject.doas（主题。java:415)在org.apache.hadoop.security.usergroupinformation.doas（usergroupinformation。java:1478)在org.apache.hadoop.mapred.yarnchild.main（yarnchild。java:153)
非常感谢您的帮助。

Java hadoop mapreduce bigtop

来源：https://stackoverflow.com/questions/26748811/setting-external-jars-to-hadoop-classpath

5条答案

按热度按时间

u5rb5r591#

运行Map的节点上缺少外部jar。必须将其添加到缓存中才能使其可用。尝试：

DistributedCache.addFileToClassPath(new Path("pathToJar"), conf);

不确定是哪个版本 DistributedCache 已弃用，但从hadoop 2.2.0开始，您可以使用：

job.addFileToClassPath(new Path("pathToJar"));

赞(0）回复(0）举报 2021-06-03

zyfwsgd62#

我试着在hadoop类路径中设置opencsv jar，但是没有成功。我们需要显式地复制类路径中的jar，这样才能工作。它确实对我有效。以下是我遵循的步骤：
我已经在hdp集群中完成了这项工作，我在hbase libs中复制了opencsv jar，并在运行jar之前将其导出
将externaljars复制到hdp库：
要运行opencsvjar:1.复制目录/usr/hdp/2.2.9.1-11/hbase/lib/和/usr/hdp/2.2.9.1-11/hadoop-yarn/lib中的opencsv jar


**sudo cp  /home/sshuser/Amedisys/lib/opencsv-3.7.jar /usr/hdp/2.2.9.1-11/hbase/lib/**

2.使用sudo chmod 777 opencsv-3.7.jar 3.list files ls-lrt授予文件权限
4.出口 hadoop classpath : hbase classpath 5.现在运行jar。它将获取opencsv jar并正确执行。

赞(0）回复(0）举报 2021-06-03

piv4azn73#

我通过实现下面的toolrunner找到了另一种解决方法。通过这种方法，hadoop接受命令行选项。我们可以避免将文件添加到distributedcache的硬编码

public class FlightsByCarrier extends Configured implements Tool {

       public int run(String[] args) throws Exception {
         // Configuration processed by ToolRunner
         Configuration conf = getConf();

         // Create a JobConf using the processed conf
         JobConf job = new JobConf(conf, FlightsByCarrier.class);

         // Process custom command-line options
         Path in = new Path(args[1]);
         Path out = new Path(args[2]);

         // Specify various job-specific parameters     
         job.setJobName("my-app");
         job.setInputPath(in);
         job.setOutputPath(out);
         job.setMapperClass(MyMapper.class);
         job.setReducerClass(MyReducer.class);

         // Submit the job, then poll for progress until the job is complete
         JobClient.runJob(job);
         return 0;
       }

       public static void main(String[] args) throws Exception {
         // Let ToolRunner handle generic command-line options 
         int res = ToolRunner.run(new Configuration(), new FlightsByCarrier(), args);

         System.exit(res);
       }
     }

赞(0）回复(0）举报 2021-06-03

vs91vp4v4#

如果要将外部jar添加到hadoop类路径，那么最好将jar复制到hadoop正在查看的现有目录之一。在命令行上运行命令“hadoop classpath”，然后找到一个合适的文件夹并将jar文件复制到该位置，hadoop将从那里获取依赖关系。这不适用于cloudera等，因为您可能没有将文件复制到hadoop类路径文件夹的读/写权限。
看起来您也尝试了libjars选项，是否编辑了驱动程序类以实现工具接口？首先确保按如下所示编辑驱动程序类：

public class myDriverClass extends Configured implements Tool {

      public static void main(String[] args) throws Exception {
         int res = ToolRunner.run(new Configuration(), new myDriverClass(), args);
         System.exit(res);
      }

      public int run(String[] args) throws Exception
      {

        // Configuration processed by ToolRunner 
        Configuration conf = getConf();
        Job job = new Job(conf, "My Job");

        ...
        ...

        return job.waitForCompletion(true) ? 0 : 1;
      }
    }

现在编辑“hadoop jar”命令，如下所示：

hadoop jar YourApplication.jar [myDriverClass] args -libjars path/to/jar/file

现在让我们了解下面发生了什么。基本上，我们通过实现工具接口来处理新的命令行参数。toolrunner用于运行实现工具接口的类。它与genericoptionsparser一起工作，解析通用hadoop命令行参数并修改工具的配置。
在main（）中调用 ToolRunner.run(new Configuration(), new myDriverClass(), args) -在使用给定的泛型参数进行分析之后，将按tool.run（字符串[]）运行给定的工具。它使用给定的配置，如果为null，则构建一个配置，然后使用可能修改的conf版本设置工具的配置。
现在在run方法中，当我们调用getconf（）时，我们得到了配置的修改版本。所以确保你的代码中有下面一行。如果您实现了其他所有功能，并且仍然使用configuration conf=new configuration（），则什么都不起作用。

Configuration conf = getConf();

赞(0）回复(0）举报 2021-06-02

sbtkgmzw5#

我找到了一个非常简单的解决方案：以root身份登录：
cd/usr/lib查找-名称“opencsv.jar”
找到文件的位置。在我的例子中，我在/usr/lib/hive/lib/opencsv*.jar下找到了它
现在提交命令
hadoop类路径
结果显示了hadoop搜索jar文件的目录。选取一个目录并将opencsv*jar复制到该目录。
在我的情况下，成功了。

赞(0）回复(0）举报 2021-06-02

我来回答

将外部jar设置为hadoop类路径

5条答案

相关问题

热门标签

最新问答