所以,我尝试在amazonemr上运行wordcounthadoop应用程序。我有我自己的数据文件,我上传到 bucket . 我还将wordcount.jar文件添加到 bucket . 有人能告诉我在创建集群时,我们如何给出数据文件的路径,我们是否也需要给出输出目录路径,如果是,那么我如何给出输出目录路径?
bucket
z9ju0rcb1#
数据文件作为参数传入jar,数据文件位于s3 bucket中。输出也是一个s3 bucket,在这种情况下可以使用同一个bucket,只需在bucket中有一个目录/输出并将所有输出发送到那里。https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/“”“我们的wordcount jar文件将采用jar的主文件,后跟上载输入数据和输出路径的bucket名称。请注意,您只需提供路径,而不必提供精确的文件名。另外,请确保输出路径中不存在任何输出文件。指定输入和输出路径的格式为:s3n:///path
1条答案
按热度按时间z9ju0rcb1#
数据文件作为参数传入jar,数据文件位于s3 bucket中。输出也是一个s3 bucket,在这种情况下可以使用同一个bucket,只需在bucket中有一个目录/输出并将所有输出发送到那里。
https://blog.safaribooksonline.com/2013/05/07/running-hadoop-mapreduce-jobs-on-amazon-emr/
“”“我们的wordcount jar文件将采用jar的主文件,后跟上载输入数据和输出路径的bucket名称。请注意,您只需提供路径,而不必提供精确的文件名。另外,请确保输出路径中不存在任何输出文件。指定输入和输出路径的格式为:s3n:///path