设置
我有apachespark(2.4.4),在linux(ubuntu18.04.3lts(gnu/linux 4.15.0-65-generic x86_))上运行,我也有hadoop(hdfs)在同一个linux机器上运行(主机名:ikarakas.fritz.box,ip:192.168.188.76)
我的驱动程序应用程序(java;1.8.0(73)在mac机上。
下面是我的驱动程序应用程序的一些摘录
public void startUp() {
System.out.println(getNowISO() + "-----TEST: startUp");
String sparkMaster = "ikarakas.fritz.box";
SparkConf conf = new SparkConf().setAppName("Ilker's Analyzer")
.setMaster("spark://" + sparkMaster + ":7077");
spark = SparkSession
.builder()
.config(conf)
.config("spark.sql.session.timeZone", "UTC")
.getOrCreate();
l16DataSet = spark.read().json("hdfs://192.168.188.76:9000/user/hadoop/l16data.json");
// ...
}
问题
我的应用程序永远无法完成spark.read.json(…)语句。
当我检查spark web作业监控界面时,我看到我的作业被卡在了那个行号上;例如。
org.apache.spark.sql.DataFrameReader.json(DataFrameReader.scala:325)
spark.Analyzer.startUp(Analyzer.java:67)
spark.Analyzer.test(Analyzer.java:365)
spark.Analyzer.main(Analyzer.java:396)
我所要做的就是,在远程主机上运行我的工作,作为其中的一部分,能够从hdfs加载一个文件。
有什么想法吗?谢谢
暂无答案!
目前还没有任何答案,快来回答吧!