我正在用文件路径获取文件元数据。在获取每个文件的元数据时应该不会有任何错误,但是需要花费很长时间,因为我有大约10k个文件,并且我想保存结果。
getpdfInfoUdf = F.udf(getpdfInfoFromPath, pdfInfoSchema)
docCheckSparkDf = docCheckSparkDf.withColumn("metaData", getpdfInfoUdf(F.col("path")))
我试过了,但它仍在没完没了地运行。
docCheckSparkDf.rdd.mapPartitions(getpdfInfoForPartition)
以及保存文件,
docCheckSparkDf.write.partitionBy("id").format("parquet").save("FileStore/tables/xxx.parquet")
有什么建议可以改进吗?
暂无答案!
目前还没有任何答案,快来回答吧!