存储自定义

dba5bblo  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(393)

如何为pig脚本自定义hbastorage?实际上,在将数据加载到pig脚本之前,我想对数据执行一些业务逻辑。它就像hbastorage之上的自定义存储。
e、 我的行键有这样的结构。目前,我正在我的pig脚本的hbastorage中传递一个\u b \u c键,但是在将输入数据提供给实际的pig脚本之前,我想对像\u b \u c \d这样的键执行一些逻辑,比如过滤等。怎么可能

iyzzxitl

iyzzxitl1#

我发现hbastorage是一个真正的难题,所以我编写了常规的javamr作业来查询hbase并创建自定义序列文件,然后使用pig和一个简单的自定义加载程序。我发现这节省了大量时间,因为序列文件可以在一天中多次重复使用以获得快速结果,而不是扫描hbase中的所有内容以获取每个pig脚本。

ny6fqffe

ny6fqffe2#

您可能需要查看hbastoragejava类并在此基础上实现自己的类。根据hbastorage和相关类的编写方式,这可能会从简单(只需扩展hbastorage本身并在必要时进行覆盖)变为真正令人头痛的问题。
然后必须确保包含代码的.jar位于pig类路径上。

相关问题