如何有效地处理ftp提供的二进制文件并将结果存储在gcs上

xvw2m8pv  于 2021-06-04  发布在  Flume
关注(0)|答案(0)|浏览(181)

我需要从ftp服务器(不是sftp)下载大约200万个gunzip文件,处理它们并将结果(jpeg图像)存储在google云存储上。我考虑过旋转一个dataproc集群,然后从ftp获取文件并使用spark进行处理。但不确定spark处理这些二进制文件的能力。
有人能提出更好的方法吗?
谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题