我想使用amazon的elasticmapreduce,并在大约2tb的数据上运行pig脚本。问题是我必须使用pigstorage,因为我的程序中需要tagsource选项。
我不确定,但我认为pigstorage只从hdfs加载数据。我需要它从下面的url读取数据,或者直接从url将数据加载到hdfs:http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/
有办法吗?
我想使用amazon的elasticmapreduce,并在大约2tb的数据上运行pig脚本。问题是我必须使用pigstorage,因为我的程序中需要tagsource选项。
我不确定,但我认为pigstorage只从hdfs加载数据。我需要它从下面的url读取数据,或者直接从url将数据加载到hdfs:http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/
有办法吗?
暂无答案!
目前还没有任何答案,快来回答吧!