我想在hadoop平台上处理图像(很可能是大尺寸的),但是我不知道从前面提到的2个接口中选择哪一个,特别是对于hadoop初学者来说。考虑到需要将图像分割成块,在工作机器之间分配处理,并在处理完成后合并块。众所周知,pydoop可以更好地访问hadoopapi,而mrjob有强大的实用程序来执行作业,哪一个适合用于此类工作?
hl0ma9xz1#
实际上我建议使用pyspark,因为它本机支持二进制文件。对于图像处理,可以尝试tensorflowonspark
1条答案
按热度按时间hl0ma9xz1#
实际上我建议使用pyspark,因为它本机支持二进制文件。
对于图像处理,可以尝试tensorflowonspark