我正在尝试使用s3cmd cli将32gb文件上载到s3存储桶。它正在进行多部分上传,经常会失败。我在一个有1000mbps带宽的服务器上做这个。但是上传速度还是很慢。我能做些什么来加快速度吗?
另一方面,文件在我提到的服务器上的hdfs上。有没有一种方法可以引用amazon弹性map reduce作业来从这个hdfs中获取它?这仍然是一个上传,但工作正在得到执行以及。所以整个过程要快得多。
我正在尝试使用s3cmd cli将32gb文件上载到s3存储桶。它正在进行多部分上传,经常会失败。我在一个有1000mbps带宽的服务器上做这个。但是上传速度还是很慢。我能做些什么来加快速度吗?
另一方面,文件在我提到的服务器上的hdfs上。有没有一种方法可以引用amazon弹性map reduce作业来从这个hdfs中获取它?这仍然是一个上传,但工作正在得到执行以及。所以整个过程要快得多。
1条答案
按热度按时间k0pti3hp1#
首先,我承认我从未使用过s3cmd的多部分特性,所以我不能这么说。不过,我过去曾使用boto将大型文件(10-15gb文件)上传到s3,并取得了很大成功。事实上,这对我来说是一个非常常见的任务,所以我编写了一个小实用程序来简化它。
至于hdfs问题,您可以始终使用完全限定的uri引用hdfs路径,例如hdfs://{namenode}:{port}/path/to/files。这假设您的emr集群可以访问此外部hdfs集群(可能需要使用安全组设置)