学习使用类似perl的正则表达式

uurity8g  于 2021-06-02  发布在  Hadoop
关注(0)|答案(2)|浏览(305)

有没有一种方法可以从Pig拉丁语的文件中提取某些单词,例如:我想要一个包含tweets的大文件中的所有单词,这些单词的开头都有一个ţ。

Input :  What a lovely day! #Sunshine
Output : Sunshine
vmpqdwk3

vmpqdwk31#

看看regex\u摘录:http://pig.apache.org/docs/r0.12.1/func.html#regex-提取
这应该是有效的(从你的#字段中提取最后一个前面有#的单词):

REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)
rqcrx0a6

rqcrx0a62#

好的,使用filter对我有用:startswithhash=filter<>by<>匹配'#.*';

相关问题