我试图从一个文件夹中加载多个json文件,每个文件都以一个数字结尾,因此我在路径中使用通配符(*),以便spark逐个读取。
spark跳过几个文件而不是加载所有文件。
文件夹中的文件
raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")
assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")
spark.sql("select distinct substring(page,90) from check_files").show()
低于输出
+-------------------------------+
|substring(page, 85, 2147483647)|
+-------------------------------+
| Assignments_6.json|
| Assignments_24.json|
| Assignments_5.json|
| Assignments_14.json|
| Assignments_17.json|
| Assignments_9.json|
| Assignments_13.json|
| Assignments_1.json|
| Assignments_7.json|
| Assignments_8.json|
| Assignments_23.json|
+-------------------------------+
我不明白为什么spark会跳过文件,我已经手动加载了每个文件,以查看这些文件中是否有任何文件已损坏,并且所有文件都是有效文件。
暂无答案!
目前还没有任何答案,快来回答吧!