我在pyspark中将文件输出为parquet。我怎么知道Parquet地板文件块的大小?
qvk1mo1f1#
你应该用较小的块大小来写你的Parquet文件。默认值是每个块128mb,但是可以通过在writer中设置parquet.block.size配置来配置。parquetouputformat的源代码在这里,如果您想深入了解细节的话。块大小是您可以从逻辑可读的Parquet文件中读取的最小数据量(因为Parquet是列型的,所以您不能只按行或类似这样的琐碎内容进行拆分),因此您不能有比输入块更多的读取线程。
1条答案
按热度按时间qvk1mo1f1#
你应该用较小的块大小来写你的Parquet文件。默认值是每个块128mb,但是可以通过在writer中设置parquet.block.size配置来配置。parquetouputformat的源代码在这里,如果您想深入了解细节的话。块大小是您可以从逻辑可读的Parquet文件中读取的最小数据量(因为Parquet是列型的,所以您不能只按行或类似这样的琐碎内容进行拆分),因此您不能有比输入块更多的读取线程。