ApachePig—如何将数据从url加载到.gz文件中？

w46czmvw 于 2021-06-24 发布在 Pig

关注(0)|答案(0)|浏览(236)

我想使用amazon的elasticmapreduce，并在大约2tb的数据上运行pig脚本。问题是我必须使用pigstorage，因为我的程序中需要tagsource选项。
我不确定，但我认为pigstorage只从hdfs加载数据。我需要它从下面的url读取数据，或者直接从url将数据加载到hdfs：http://dumps.wikimedia.org/other/pagecounts-raw/2008/2008-01/
有办法吗？

hdfs amazon-emr apache-pig emr webhdfs

来源：https://stackoverflow.com/questions/18379114/how-do-i-load-data-from-a-url-to-a-gz-file-into-pig

暂无答案！

目前还没有任何答案，快来回答吧！

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前