pig0.12引入了流式python udf,但它们是实验性的,因此需要hadoop1。
http://pig.apache.org/docs/r0.12.1/udf.html#python-自定义项
但是,amazon提供的唯一可以使用Pig0.12的ami是AMI3.1.0,它使用的是Hadoop2.4,而不是Hadoop1:
http://docs.aws.amazon.com/elasticmapreduce/latest/developerguide/emr-plan-hadoop-version.html
所以,唯一支持正确版本pig的ami不支持正确版本的hadoop。有没有办法让流式自定义项在emr上工作?
1条答案
按热度按时间wpx232ag1#
您可以使用引导操作在emr上安装自己版本的pig。您将需要创建一个集群,在ami版本(2.4.5?)上没有安装pig,然后安装一个您喜欢的pig版本(0.12)