spark输出文件命名方案

xpcnnkqh 于 2021-05-27 发布在 Hadoop

关注(0)|答案(0)|浏览(293)

我试图理解spark在编写输出文件时使用的命名方案。例如，我有以下输出：

2019-11-21 04:41:57  478988224 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57  369488615 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet
2019-11-21 04:41:57   61498975 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c002.snappy.parquet
2019-11-21 04:41:57  478216284 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57  367980988 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet

如果我们考虑单个文件名 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet 它具有以下命名方案： part-<part-number>-<uid>-<c-part>.<compression>.<format> 在哪里 uid 从哪个地方拿走的？是任务id还是类似的？是什么 c-part 什么意思？命名方案是否根据所使用的名称而改变 mapreduce.fileoutputcommitter.algorithm.version" ?

hadoop apache-spark

来源：https://stackoverflow.com/questions/58991467/spark-output-files-naming-scheme

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark输出文件命名方案

暂无答案！

相关问题

热门标签

最新问答