有没有一种方法可以从Pig拉丁语的文件中提取某些单词,例如:我想要一个包含tweets的大文件中的所有单词,这些单词的开头都有一个ţ。
Input : What a lovely day! #Sunshine Output : Sunshine
vmpqdwk31#
看看regex\u摘录:http://pig.apache.org/docs/r0.12.1/func.html#regex-提取这应该是有效的(从你的#字段中提取最后一个前面有#的单词):
REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)
rqcrx0a62#
好的,使用filter对我有用:startswithhash=filter<>by<>匹配'#.*';
2条答案
按热度按时间vmpqdwk31#
看看regex\u摘录:http://pig.apache.org/docs/r0.12.1/func.html#regex-提取
这应该是有效的(从你的#字段中提取最后一个前面有#的单词):
rqcrx0a62#
好的,使用filter对我有用:startswithhash=filter<>by<>匹配'#.*';