将2个不同的RDD输入spark中的Map器

dsekswqp  于 2021-07-12  发布在  Spark
关注(0)|答案(0)|浏览(216)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。

上个月关门了。
改进这个问题
我最终想做的是使用spark rdd api实现以下伪代码:

Map (K: null, V : a record from a split of either R or L)
join key ← extract the join column from V
tagged record ← add a tag of either R or L to V
emit (join key, tagged record)

我有两个RDD,比如rdd1和rdd1,模式如下:

rdd1 = (value1,value2,value3)
rdd2 = (value1,value4)

假设连接列是value1。
我这里的问题分为两个子问题。
如何使用spark rdd api在同一Map器中提供2个rdd?如何在Map器中标记记录?
我在网上搜索过,但没有找到任何合适的文档。有什么想法??
提前谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题