如何在pig中使用rcfilepig存储

e0bqpujr  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(321)

我想将一个文本文件加载到pig中,然后将其存储为rc文件。为此,我发现twitter在这个链接中提供了一个存储自定义项
http://grepcode.com/file/repo1.maven.org/maven2/com.twitter.elephantbird/elephant-bird-rcfile/3.0.8/com/twitter/elephantbird/pig/store/rcfilepigstorage.java
有人能告诉我如何编译它并在我的pig代码中使用它吗?

3vpjnl9f

3vpjnl9f1#

包括所有twitter依赖项和pig jar,并编译rcfilepigstorage.java。如果要更改代码中的某些特定行为,也可以进行更改,并可以将其重命名为myrcfilepigstorage.java。
现在获取编译后生成的类文件,并创建一个名为myrcudf.jar的jar文件。在脚本中注册这个jar。

Register MyRCUdf.jar;

* your pig logic*

Store 'data' using MyRCFilePigStorage();

edit:consider the 以下是twitter依赖项的链接。获取源代码,编译并包含在类路径中生成的类
https://github.com/kevinweil/elephant-bird/blob/master/core/src/main/java/com/twitter/elephantbird/mapreduce/input/mapreduceinputformatwrapper.java
https://github.com/kevinweil/elephant-bird

相关问题