如何在amazonemr上的pig中使用python流式udf

ivqmmu1c  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(374)

pig0.12引入了流式python udf,但它们是实验性的,因此需要hadoop1。
http://pig.apache.org/docs/r0.12.1/udf.html#python-自定义项
但是,amazon提供的唯一可以使用Pig0.12的ami是AMI3.1.0,它使用的是Hadoop2.4,而不是Hadoop1:
http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/emr-plan-hadoop-version.html
所以,唯一支持正确版本pig的ami不支持正确版本的hadoop。有没有办法让流式自定义项在emr上工作?

wpx232ag

wpx232ag1#

您可以使用引导操作在emr上安装自己版本的pig。您将需要创建一个集群,在ami版本(2.4.5?)上没有安装pig,然后安装一个您喜欢的pig版本(0.12)

相关问题