有没有一种方法可以让spark按大小而不是按数据的数量重新分区

vc9ivgsu 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(483)

我有一个数据集平均除以每个分区的记录数，但有些分区的数据大小是其他分区的4倍或更多。每一张唱片都有一个收藏，我想在一些唱片中可能会大得多。这会导致看起来像是数据倾斜的情况，由于这种不平衡的记录，一些分区需要更长的时间。如果我可以启用一些spark日志来打印每个分区的字节大小和行的大小，这可以帮助我排除故障。因为数据被发送到Cassandra使用他们的Spark连接器，这是做一些重新划分自己。

Dataset apache-spark skew

来源：https://stackoverflow.com/questions/61722397/is-there-a-way-to-make-spark-re-partition-by-size-rather-than-count-of-the-data

1条答案

按热度按时间

无法按大小重新划分数据集。在我的例子中，我有一个数组，其中一些行将有大量的条目。这可能是数据上的异常，我只需向数据集添加一个过滤器就可以过滤掉这些行。

df.filter( size($colname) < 1000)

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前