pyspark 为什么spark数据框显示出不同的结果?

fdx2calv  于 2022-11-01  发布在  Spark
关注(0)|答案(1)|浏览(134)

此语句输出partitionID和该分区中的记录数:logger.warning('Num partitions: %s', data_frame.toDF().rdd.getNumPartitions())

+-----------+-----+
|partitionId|count|
+-----------+-----+
|          3|   22|
+-----------+-----+

此语句输出分区数:
logger.warning('Num partitions: %s', data_frame.toDF().rdd.getNumPartitions())

WARNING:root:Num partitions 4

它们的分区数不应该相同吗?第一个结果显示只有一个分区,而第二个结果显示有4个分区?

olmpazwi

olmpazwi1#

Spark实际上创建了4个分区,但其中3个是空的。

logger.warning("Partitions structure: {}".format(dynamic_frame.toDF().rdd.glom().collect()))

 Partitions structure: [[Row(.....), Row(...)], [], [], []]

相关问题