在hadoop mr/pig中将数据导入作业

yptwkmov  于 2021-05-30  发布在  Hadoop
关注(0)|答案(3)|浏览(314)

我有三种不同类型的作业在hdfs中的数据上运行。在当前场景中,这三个作业必须分别运行。现在, we want to run the three jobs together by piping the OUTPUT data of one job to the other job without writing the data in HDFS to improve the architecture and overall performance. 欢迎对此场景提出任何建议。
ps:oozie不适合这个工作流。级联框架也被排除在外,因为可伸缩性问题。谢谢

eit6fx6z

eit6fx6z1#

你可以试着用色调。参考:http://blog.cloudera.com/blog/2014/10/new-in-cdh-5-2-new-security-app-and-more-in-hue/
cdh5.2通过hue提供了重要的可用性新功能,hue是一个开源gui,它使apachehadoop易于使用。除了提供一个用于管理安全权限的全新应用程序外,此版本的功能特别丰富,并且正在成为cloudera合作伙伴(如tableau、microstrategy和zoomdata)bi工具的一个很好的补充,因为更可用的hadoop可以转化为整个组织更好的bi!

t30tvxxf

t30tvxxf2#

oozie帮助将多个hadoop作业(mapreduce、pig、hive、java等)链接在一起,形成一个数据管道应用程序。对调度和hadoop相关函数的内置支持使dev的工作更易于管理复杂的hadoop相关作业。
不过,oozie并不一定要消除hdfs或其他形式(如本地文件系统或数据库等)中的数据存储。要做到这一点,您需要引入一些内存中的数据存储、消息队列系统或其他适用于您所拥有数据规模的系统。

dhxwm5r4

dhxwm5r43#

hadoop固有地在m/r步骤之后写入存储(例如hdfs)。如果你想要记忆中的某样东西,也许你需要研究一下像spark这样的东西。

相关问题