此语句输出partitionID和该分区中的记录数:logger.warning('Num partitions: %s', data_frame.toDF().rdd.getNumPartitions())
+-----------+-----+
|partitionId|count|
+-----------+-----+
| 3| 22|
+-----------+-----+
此语句输出分区数:logger.warning('Num partitions: %s', data_frame.toDF().rdd.getNumPartitions())
个
WARNING:root:Num partitions 4
它们的分区数不应该相同吗?第一个结果显示只有一个分区,而第二个结果显示有4个分区?
1条答案
按热度按时间olmpazwi1#
Spark实际上创建了4个分区,但其中3个是空的。