我想知道是否有一个自定义项或什么东西可以存储我的数据在一个分区的方式在rc格式。我知道有 org.apache.pig.piggybank.storage.MultiStorage 但它只对某些压缩格式执行。我想以rc格式存储数据,但使用multistorage提供的分区存储结构。谢谢,伊姆蒂亚兹
org.apache.pig.piggybank.storage.MultiStorage
mnemlml81#
在piggybank或其他替代方案中都没有这样的解决方案。我也遇到过类似的问题。但由于其他一些要求而放弃了实现。唯一可用的解决方案是扩展multistorage udf以提供rc存储格式。twitter已经开放了rc文件存储。你可以从中得到帮助。http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/rcfilepigstorage.java
1条答案
按热度按时间mnemlml81#
在piggybank或其他替代方案中都没有这样的解决方案。我也遇到过类似的问题。但由于其他一些要求而放弃了实现。唯一可用的解决方案是扩展multistorage udf以提供rc存储格式。
twitter已经开放了rc文件存储。你可以从中得到帮助。http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/rcfilepigstorage.java