spark没有从文件夹加载所有文件

fxnxkyjh 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(252)

我试图从一个文件夹中加载多个json文件，每个文件都以一个数字结尾，因此我在路径中使用通配符（*），以便spark逐个读取。
spark跳过几个文件而不是加载所有文件。
文件夹中的文件

raw_assignments = spark.read.option("multiline","true").json(r"Assignments_*.json")

assignments_df_all = raw_assignments.select("*").withColumn("page",input_file_name()).createOrReplaceTempView("check_files")

spark.sql("select distinct substring(page,90)  from check_files").show()

低于输出

+-------------------------------+
|substring(page, 85, 2147483647)|
+-------------------------------+
|             Assignments_6.json|
|            Assignments_24.json|
|             Assignments_5.json|
|            Assignments_14.json|
|            Assignments_17.json|
|             Assignments_9.json|
|            Assignments_13.json|
|             Assignments_1.json|
|             Assignments_7.json|
|             Assignments_8.json|
|            Assignments_23.json|
+-------------------------------+

我不明白为什么spark会跳过文件，我已经手动加载了每个文件，以查看这些文件中是否有任何文件已损坏，并且所有文件都是有效文件。

apache-spark pyspark apache-spark-sql pyspark-dataframes apache-spark-2.0

来源：https://stackoverflow.com/questions/66161908/spark-not-loading-all-the-files-from-folder

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark没有从文件夹加载所有文件

暂无答案！

相关问题

热门标签

最新问答