我需要从ftp服务器(不是sftp)下载大约200万个gunzip文件,处理它们并将结果(jpeg图像)存储在google云存储上。我考虑过旋转一个dataproc集群,然后从ftp获取文件并使用spark进行处理。但不确定spark处理这些二进制文件的能力。有人能提出更好的方法吗?谢谢
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!