在这个问题之后,我想问一下。我有两张table:第一张table- MajorRange
```
row | From | To | Group ....
-----|--------|---------|---------
1 | 1200 | 1500 | A
2 | 2200 | 2700 | B
3 | 1700 | 1900 | C
4 | 2100 | 2150 | D
...
第二张table- `SubRange` ```
row | From | To | Group ....
-----|--------|---------|---------
1 | 1208 | 1300 | E
2 | 1400 | 1600 | F
3 | 1700 | 2100 | G
4 | 2100 | 2500 | H
...
输出表应该是所有 SubRange
有重叠的组 MajorRange
组。在以下示例中,结果表为:
row | Major | Sub |
-----|--------|------|-
1 | A | E |
2 | A | F |
3 | B | H |
4 | C | G |
5 | D | H |
如果范围之间没有重叠 Major
不会出现。这两个表都是大数据表。如何以最有效的方式使用hive/spark?
1条答案
按热度按时间but5z9lq1#
与
spark
,也许是这样的非等分联接?