谁能解释一下c000在c000.snappy.parquet或c000.snappy.orc中是什么意思吗??

vxf3dgd4  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(444)

我搜索了所有文档,仍然没有找到为什么在下面的文件命名约定中有前缀以及c000是什么:
文件:/users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet

vaj7vani

vaj7vani1#

你应该使用“谈话很便宜,给我看代码”的方法。所有的东西都没有文档化,唯一的方法就是代码。
考虑第1-2和3-4部分。Parquet地板:
分割/分区编号。
随机uuid以防止不同(附加)写作业之间的冲突。
唯一的作业/任务id(有时不包括它)。
“c”代表计数。这是文件计数器,表示过去为这个特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从0开始。
我是根据这个代码和这个代码找到的。

相关问题