数据块/Spark:文件清理和文件跳过之间有什么区别?

xriantvc  于 2023-08-06  发布在  Apache
关注(0)|答案(1)|浏览(134)

增量文件中的文件跳过是指您完全跳过阅读文件,因为您知道您正在查找的值将不存在于文件中。这是通过查看列统计信息来确定的。阅读有关文件修剪-它似乎在做类似的工作。这两个术语是相同的,可以互换使用,还是两者之间存在差异?

rkue9o1l

rkue9o1l1#

File skipping是一种特定的技术,用于收集一些统计信息,然后使用它们来识别可能包含数据的文件。
Dynamic file pruning是一个特定的Spark优化,用于通过利用文件跳过统计等来执行高效的连接和其他相关操作。在优化之前,文件跳过数据仅用于“静态”过滤器(where条件等)。您可以在following blog post中阅读更多详细信息。

相关问题