我正在尝试用窗口功能运行下面的配置单元查询,这需要很长时间。我希望有人能给我一些建议,让我加快速度。下面的表1有近10亿条记录,表2只有几千条。任何提示都非常感谢。
代码:
SELECT up.uid,up.ban,up.ban_pref,
DENSE_RANK() OVER (PARTITION BY up.uid ORDER BY up.ban_pref DESC, bnp.tot_pod DESC) AS rank
FROM table1 AS up
INNER JOIN table2 AS bnp ON up.ban=bnp.ban
1条答案
按热度按时间yrdbyhpb1#
也许这已经解决了。但是,我的想法。1.首先尝试使用map side join完成连接,因为第二个表很小。这可以使用hive.auto.convert.join=true来完成。2.在下一步中,尝试执行window函数。