我有一个数据集作为
(str,[[40,74],[50,75],[60,73],[70,43]])
我需要用pig在输出变量中得到这个:
str, 40, 74
str , 50, 75
str, 60, 73
str, 70, 43
这可能是一组可变的元素。
尝试使用标记化然后展平,但这没有帮助,因为它使用逗号创建标记。最后变成这样。。
str , {([[40), (74]), ... }
有人会建议我是否可以使用内置函数或为此编写自定义项。
非常感谢,安娜
我有一个数据集作为
(str,[[40,74],[50,75],[60,73],[70,43]])
我需要用pig在输出变量中得到这个:
str, 40, 74
str , 50, 75
str, 60, 73
str, 70, 43
这可能是一组可变的元素。
尝试使用标记化然后展平,但这没有帮助,因为它使用逗号创建标记。最后变成这样。。
str , {([[40), (74]), ... }
有人会建议我是否可以使用内置函数或为此编写自定义项。
非常感谢,安娜
1条答案
按热度按时间jaxagkaj1#
您需要编写一个自定义的udf来解析它。假设您的数据不会变得比这更复杂,那么您可能可以使用一种快速、浅显的解析方法
String.split
带分隔符"],["
.