pig模式来加载数据

6qqygrtg  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(304)

我有如下的输入数据格式来表示一个源url的输出链接,即源url 1有2个和3个输出url

1 2 3
2 3 4
3 4
4 1

我想装进Pig里如下

N,  aN
(1,(2,3))
(2,(3,4))
(3,(4))
(4,(1))

我可以使用defaultas模式来实现这一点,还是必须编写一个自定义加载函数。

mzsu5hc0

mzsu5hc01#

您需要编写一个自定义加载程序,或者稍微修改一下数据结构。如果没有自定义加载程序,您可以将其转换为以下格式:

N,  aN
(1,(2,3))
(2,(3,4))
(,(3,4))
(,(4,1))

相关问题