我怎么知道Parquet文件块大小?

0md85ypi  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(392)

我在pyspark中将文件输出为parquet。我怎么知道Parquet地板文件块的大小?

qvk1mo1f

qvk1mo1f1#

你应该用较小的块大小来写你的Parquet文件。默认值是每个块128mb,但是可以通过在writer中设置parquet.block.size配置来配置。parquetouputformat的源代码在这里,如果您想深入了解细节的话。块大小是您可以从逻辑可读的Parquet文件中读取的最小数据量(因为Parquet是列型的,所以您不能只按行或类似这样的琐碎内容进行拆分),因此您不能有比输入块更多的读取线程。

相关问题