我正在尝试使用另一个Dataframedf2的列过滤Dataframedf1,列是country\u id。我想将第一个Dataframe的所有行减少到第二个df上的国家。举个例子:
+--------------+------------+-------+
|Date | country_id | value |
+--------------+------------+-------+
|2015-12-14 |ARG |5 |
|2015-12-14 |GER |1 |
|2015-12-14 |RUS |1 |
|2015-12-14 |CHN |3 |
|2015-12-14 |USA |1 |
+--------------+------------+
|USE | country_id |
+--------------+------------+
| F |RUS |
| F |CHN |
Expected:
+--------------+------------+-------+
|Date | country_id | value |
+--------------+------------+-------+
|2015-12-14 |RUS |1 |
|2015-12-14 |CHN |3 |
我怎么能这么做?我是新的Spark,所以我想使用可能相交?或者其他方法更有效?
提前谢谢!
1条答案
按热度按时间mcvgt66p1#
可以使用左半联接:
也可以使用内部联接: