关闭。这个问题需要细节或清晰。它目前不接受答案。
**想改进这个问题吗?**通过编辑这个帖子来添加细节并澄清问题。
上个月关门了。
改进这个问题
我最终想做的是使用spark rdd api实现以下伪代码:
Map (K: null, V : a record from a split of either R or L)
join key ← extract the join column from V
tagged record ← add a tag of either R or L to V
emit (join key, tagged record)
我有两个RDD,比如rdd1和rdd1,模式如下:
rdd1 = (value1,value2,value3)
rdd2 = (value1,value4)
假设连接列是value1。
我这里的问题分为两个子问题。
如何使用spark rdd api在同一Map器中提供2个rdd?如何在Map器中标记记录?
我在网上搜索过,但没有找到任何合适的文档。有什么想法??
提前谢谢
暂无答案!
目前还没有任何答案,快来回答吧!