apachespark—在pyspark中用path读取挂载文件元数据的有效方法

dfty9e19  于 2021-05-19  发布在  Spark
关注(0)|答案(0)|浏览(325)

我正在用文件路径获取文件元数据。在获取每个文件的元数据时应该不会有任何错误,但是需要花费很长时间,因为我有大约10k个文件,并且我想保存结果。

getpdfInfoUdf = F.udf(getpdfInfoFromPath, pdfInfoSchema)
docCheckSparkDf = docCheckSparkDf.withColumn("metaData", getpdfInfoUdf(F.col("path")))

我试过了,但它仍在没完没了地运行。

docCheckSparkDf.rdd.mapPartitions(getpdfInfoForPartition)

以及保存文件,

docCheckSparkDf.write.partitionBy("id").format("parquet").save("FileStore/tables/xxx.parquet")

有什么建议可以改进吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题