远程Spark; java ;hdfs(apache spark(2.4.4)

xqkwcwgp  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(303)

设置

我有apachespark(2.4.4),在linux(ubuntu18.04.3lts(gnu/linux 4.15.0-65-generic x86_))上运行,我也有hadoop(hdfs)在同一个linux机器上运行(主机名:ikarakas.fritz.box,ip:192.168.188.76)
我的驱动程序应用程序(java;1.8.0(73)在mac机上。
下面是我的驱动程序应用程序的一些摘录

public void startUp() {
    System.out.println(getNowISO() + "-----TEST: startUp");

    String sparkMaster = "ikarakas.fritz.box";

    SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
            .setMaster("spark://" + sparkMaster + ":7077");

    spark = SparkSession
            .builder()
            .config(conf)
            .config("spark.sql.session.timeZone", "UTC")
            .getOrCreate();

    l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
    // ...
}

问题

我的应用程序永远无法完成spark.read.json(…)语句。
当我检查spark web作业监控界面时,我看到我的作业被卡在了那个行号上;例如。

org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)

我所要做的就是,在远程主机上运行我的工作,作为其中的一部分,能够从hdfs加载一个文件。
有什么想法吗?谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题