当你的Spark任务中没有shuffle时，强制AQE工作的最佳方法是什么？

pgky5nke 于 2023-08-06 发布在 Apache

关注(0)|答案(1)|浏览(114)

我想使用自适应查询执行（AQE）来合并小分区，但是在没有shuffle的作业中（例如，您从某处读取某些内容并将其写入而不进行任何转换），AQE不起作用。
所以我得强迫他们 Shuffle 。什么是最好的方式来做到这一点，这样的 Shuffle 是不昂贵的？
例如，我是否应该将我的 Dataframe 连接到一个只有1行的 Dataframe 上？
还是有更好的办法？
也许我应该完全做些别的事情，而不是在这种情况下使用AQE。告诉我- 谢谢-谢谢

来源：https://stackoverflow.com/questions/76829675/whats-the-best-way-to-force-aqe-to-work-when-theres-no-shuffle-in-your-spark-j

1条答案

按热度按时间

看起来我需要为此编写SparkExtensions。它们允许您将自己的规则添加到Catalyst Optimizer。我在这里找到了一些代码：
https://gist.github.com/GrigorievNick/2f77b26719e46c544e3f20aa48862719
还有Databricks YouTube频道上的这段视频：https://www.youtube.com/watch?v=IlovS-Y7KUk的
标签：https://www.youtube.com/watch?v=8FGL7ZiYl3o

赞(0）回复(0）举报 2023-08-06

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前