我有一个集群,我们有8个节点。每一个都有116 gb的ram和16个内核,我正在尝试读取表x,它的大小是250 gb。我将表x与表y连接10次,得到10列。表y的大小为100 mb。
现在我的问题是,当我广播表y并显式缓存表y时,脚本大约需要20个小时,但当我不缓存并只广播表y时,整个过程只需要1个小时。
如果在广播表之后显式缓存100 mb,则无法理解实际是什么导致了更多的时间。
试图搜索官方文件,但找不到太多信息。
请帮忙。
我有一个集群,我们有8个节点。每一个都有116 gb的ram和16个内核,我正在尝试读取表x,它的大小是250 gb。我将表x与表y连接10次,得到10列。表y的大小为100 mb。
现在我的问题是,当我广播表y并显式缓存表y时,脚本大约需要20个小时,但当我不缓存并只广播表y时,整个过程只需要1个小时。
如果在广播表之后显式缓存100 mb,则无法理解实际是什么导致了更多的时间。
试图搜索官方文件,但找不到太多信息。
请帮忙。
暂无答案!
目前还没有任何答案,快来回答吧!