我有一个数据集平均除以每个分区的记录数,但有些分区的数据大小是其他分区的4倍或更多。每一张唱片都有一个收藏,我想在一些唱片中可能会大得多。这会导致看起来像是数据倾斜的情况,由于这种不平衡的记录,一些分区需要更长的时间。如果我可以启用一些spark日志来打印每个分区的字节大小和行的大小,这可以帮助我排除故障。因为数据被发送到Cassandra使用他们的Spark连接器,这是做一些重新划分自己。
我有一个数据集平均除以每个分区的记录数,但有些分区的数据大小是其他分区的4倍或更多。每一张唱片都有一个收藏,我想在一些唱片中可能会大得多。这会导致看起来像是数据倾斜的情况,由于这种不平衡的记录,一些分区需要更长的时间。如果我可以启用一些spark日志来打印每个分区的字节大小和行的大小,这可以帮助我排除故障。因为数据被发送到Cassandra使用他们的Spark连接器,这是做一些重新划分自己。
1条答案
按热度按时间5kgi1eie1#
无法按大小重新划分数据集。在我的例子中,我有一个数组,其中一些行将有大量的条目。这可能是数据上的异常,我只需向数据集添加一个过滤器就可以过滤掉这些行。