我搜索了所有文档,仍然没有找到为什么在下面的文件命名约定中有前缀以及c000是什么:文件:/users/stephen/p/spark/f1/part-00000-445036f9-7a40-4333-8405-8451faa44319-c000.snappy.parquet
vaj7vani1#
你应该使用“谈话很便宜,给我看代码”的方法。所有的东西都没有文档化,唯一的方法就是代码。考虑第1-2和3-4部分。Parquet地板:分割/分区编号。随机uuid以防止不同(附加)写作业之间的冲突。唯一的作业/任务id(有时不包括它)。“c”代表计数。这是文件计数器,表示过去为这个特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从0开始。我是根据这个代码和这个代码找到的。
1条答案
按热度按时间vaj7vani1#
你应该使用“谈话很便宜,给我看代码”的方法。所有的东西都没有文档化,唯一的方法就是代码。
考虑第1-2和3-4部分。Parquet地板:
分割/分区编号。
随机uuid以防止不同(附加)写作业之间的冲突。
唯一的作业/任务id(有时不包括它)。
“c”代表计数。这是文件计数器,表示过去为这个特定分区写入的文件数。这用于限制为单个文件写入的最大记录数。该值应从0开始。
我是根据这个代码和这个代码找到的。