spark中的广播变量导致性能问题

piztneat  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(280)

我有一个集群,我们有8个节点。每一个都有116 gb的ram和16个内核,我正在尝试读取表x,它的大小是250 gb。我将表x与表y连接10次,得到10列。表y的大小为100 mb。
现在我的问题是,当我广播表y并显式缓存表y时,脚本大约需要20个小时,但当我不缓存并只广播表y时,整个过程只需要1个小时。
如果在广播表之后显式缓存100 mb,则无法理解实际是什么导致了更多的时间。
试图搜索官方文件,但找不到太多信息。
请帮忙。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题