远程Spark； java ；hdfs(apache spark(2.4.4)

xqkwcwgp 于 2021-05-27 发布在 Hadoop

关注(0)|答案(0)|浏览(303)

设置

我有apachespark（2.4.4），在linux（ubuntu18.04.3lts（gnu/linux 4.15.0-65-generic x86_））上运行，我也有hadoop（hdfs）在同一个linux机器上运行(主机名：ikarakas.fritz.box，ip:192.168.188.76）
我的驱动程序应用程序（java；1.8.0（73）在mac机上。
下面是我的驱动程序应用程序的一些摘录

public void startUp() {
    System.out.println(getNowISO() + "-----TEST: startUp");

    String sparkMaster = "ikarakas.fritz.box";

    SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
            .setMaster("spark://" + sparkMaster + ":7077");

    spark = SparkSession
            .builder()
            .config(conf)
            .config("spark.sql.session.timeZone", "UTC")
            .getOrCreate();

    l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
    // ...
}

问题

我的应用程序永远无法完成spark.read.json（…）语句。
当我检查spark web作业监控界面时，我看到我的作业被卡在了那个行号上；例如。

org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)

我所要做的就是，在远程主机上运行我的工作，作为其中的一部分，能够从hdfs加载一个文件。
有什么想法吗？谢谢

Java hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/58238548/remote-spark-java-hdfs-apache-spark-2-4-4

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

远程Spark； java ；hdfs(apache spark(2.4.4)

设置

问题

暂无答案！

相关问题

热门标签

最新问答