似乎spark仍然不支持“按优先级连接”。请告诉我是否有任何解决方法-电流输入
ColA , ColB D E A B C D B C
所需输出-
ColA , ColB A B B C C D D E
如果通过sparksql有任何解决方案,请告诉我
66bbxpm51#
有,但很痛苦。打字太长了,但这是有人做的。http://sqlandhadoop.com/how-to-implement-recursive-queries-in-spark/我的建议不是典型的spark处理,而是在oracle或db2和sqoop中使用df或read通过jdbc读取结果。也是通过普雷格尔https://www.qubole.com/blog/processing-hierarchical-data-using-spark-graphx-pregel-api/
1条答案
按热度按时间66bbxpm51#
有,但很痛苦。打字太长了,但这是有人做的。
http://sqlandhadoop.com/how-to-implement-recursive-queries-in-spark/
我的建议不是典型的spark处理,而是在oracle或db2和sqoop中使用df或read通过jdbc读取结果。
也是通过普雷格尔https://www.qubole.com/blog/processing-hierarchical-data-using-spark-graphx-pregel-api/