将2个不同的RDD输入spark中的Map器

dsekswqp 于 2021-07-12 发布在 Spark

关注(0)|答案(0)|浏览(216)

关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗？**通过编辑这个帖子来添加细节并澄清问题。

上个月关门了。
改进这个问题
我最终想做的是使用spark rdd api实现以下伪代码：

Map (K: null, V : a record from a split of either R or L)
join key ← extract the join column from V
tagged record ← add a tag of either R or L to V
emit (join key, tagged record)

我有两个RDD，比如rdd1和rdd1，模式如下：

rdd1 = (value1,value2,value3)
rdd2 = (value1,value4)

假设连接列是value1。
我这里的问题分为两个子问题。
如何使用spark rdd api在同一Map器中提供2个rdd？如何在Map器中标记记录？
我在网上搜索过，但没有找到任何合适的文档。有什么想法？？
提前谢谢

来源：https://stackoverflow.com/questions/66509446/feeding-2-different-rdds-to-a-mapper-in-spark

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

将2个不同的RDD输入spark中的Map器

暂无答案！

相关问题

热门标签

最新问答