pdi作业在资源管理器或作业历史服务器中不被视为mapreduce作业

rdrgkggo  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(386)

我正在使用pentaho 5.4和emr 3.4
当我在pentaho中执行一个转换,将数据从oracledb复制到emr上的hdfs时,我在hadoop(emr)集群的资源管理器中没有看到任何mr作业。
我是不是应该把他们看成是乔布斯先生,或者只是抄袭而没有创造任何乔布斯先生。。?
pentaho何时使用mapreduce处理数据?

6rqinv9w

6rqinv9w1#

不确定您是否已经解决了这个问题,但是您需要在kjb:pentaho-mapreduce中使用pentaho-mapreduce组件
然后,您可以定义Map器、组合器和缩减器转换以及namedcluster(xml)配置,在该配置中,您可以指定jobtracker主机、端口、,pentaho所做的就是将它的引擎复制到集群中的每个节点(在/opt/pentaho/中为默认值),并以您在spoon中指定的用户身份提交作业,然后您将能够在作业历史记录中看到它们。
在您的场景中,听起来像是在使用一个db连接加上一个不同的组件来接收hdfs文件输出。

相关问题