import pyspark.sql
#create a df using your sql
df = sqlContext.sql("SELECT field1 AS f1, field2 as f2 from table1")
#use explain to see explain output. Without argument, you will get only physical plan
df.explain(True)
== Parsed Logical Plan ==
...
== Analyzed Logical Plan ==
...
== Optimized Logical Plan ==
...
== Physical Plan ==
...
编辑:我运行了mytable的解释,并在下面贴出了摘录。这表明hive只选择了几个分区(文件夹),而不是遍历所有分区。你应该可以看到类似的输出。 此处表在part_col上进行分区。 用于生成此explain extended select * from mytab where part_col in (10,50)查询 对不起,我没有安装Spark,所以无法测试它。
1条答案
按热度按时间46qrfjad1#
您可以使用以下代码打印(逻辑和物理)计划。
编辑:我运行了mytable的解释,并在下面贴出了摘录。这表明hive只选择了几个分区(文件夹),而不是遍历所有分区。你应该可以看到类似的输出。
此处表在part_col上进行分区。
用于生成此
explain extended select * from mytab where part_col in (10,50)
查询对不起,我没有安装Spark,所以无法测试它。