级联可以重写/替换apachespark和scala吗?是不是更理想?

sgtfey8w  于 2021-07-15  发布在  Hadoop
关注(0)|答案(0)|浏览(232)

我必须尽可能地将用pig和java编写的map-reduce代码替换为apachespark&scala,并在不可能的地方重用或找到替代方法。我可以找到大多数Pig转化为Spark。现在,我遇到了我所知甚少的java级联代码。我已经研究了级联,了解了管道是如何工作的,但我不能得出结论,是否用spark取代它。以下是我的一些基本疑问。
级联java代码可以在apachespark中完全重写吗?
如果可能的话,是否应该用apachespark替换级联代码?它是否更加优化和快速?(考虑到ram不是rdd的问题)
烫伤是建立在级联之上的scala库。这是否应该用于将java代码转换为scala代码,从而消除java源代码依赖性?这样会更好吗?
级联在mapreduce上工作,mapreduce读取i/o流,而spark从内存读取。这是唯一的区别,还是有任何限制或特殊功能只能由其中一个执行?
我对大数据领域非常陌生,对所有与大数据相关的术语hadoop、spark、map reduce、hive、flink等的概念/比较非常不成熟。我通过新的工作简介和最少的高级知识/经验掌握了这些大数据职责。请尽可能提供解释性答案。谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题