使用filter和basepath+full filter path读取spark数据集有区别吗？

0yg35tkg 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(507)

对于按某列划分的数据集的读取效率，以下两者之间是否有区别：

// (1) read all dataset then filter
spark.read.parquet("/root/path").filter(col("mycolumn") === 42)

和

// (2) read directly the required data subset
spark.read.option("basePath", "/root/path").parquet("/root/path/mycolumn=42")

?
我在这样一个上下文中问这个问题：数据文件与spark不存储在同一个集群中（因此，没有数据局部性）。我特别想知道，在案例（1）中，它是否会检索spark集群上的完整数据集文件，然后对其进行过滤（希望没有实际读取文件），或者是否会在检索文件之前进行过滤，这正是我期望案例（2）所做的。

apache-spark partitioning

来源：https://stackoverflow.com/questions/64061986/is-there-a-difference-in-reading-spark-dataset-using-filter-vs-basepathfull-fil

1条答案

按热度按时间

lb3vh1jj1#

有很大的不同。
在第一种情况下，您将读取所有文件，然后过滤，在第二种情况下，您将只读取选定的文件（过滤是由分区完成的）。
您可以使用 explain() 功能。在你的 FileScan parquet 你会看到的 PushedFilters 以及 PartitionFilters 在您的情况下，应该读取不带过滤器的分区数据。

spark.read.option("basePath", "/root/path").parquet("/root/path/mycolumn=42")

赞(0）回复(0）举报 2021-05-25

我来回答

使用filter和basepath+full filter path读取spark数据集有区别吗？

1条答案

相关问题

热门标签

最新问答