使用配置单元从字符串中提取带图案的文本

qnzebej0  于 2021-06-25  发布在  Hive
关注(0)|答案(1)|浏览(316)

我在一列中有如下数据:
乡村\u视频\u a18-49 \u酒吧\u q3-\u航班\u 7 \u 18 \u 49 \u两者
乡村视频-m18-25验证-q4-航班1
2019年预展预展预展视频18-49经验证q4航班18女49女
环游世界-w25-54验证-q3 25-54女性
我需要从每个字符串中提取年龄和性别值:
a18-49号公路
m18-25型
第18-49页
第25-54页
这很棘手,因为字母a、m、f和数字范围之间可能有任意数量的组合。这些字母表示年龄,男性或女性。数字范围是年龄范围。
从google上看,我似乎可以使用regexp\u提取函数,但我对hive是个新手。在此方面的任何帮助都将不胜感激!

83qze16e

83qze16e1#

我手头没有要测试的Hive,但这可能有用:

select regexp_extract(col, '([AMW][0-9]{2}[-][0-9]{2})', 1)

相关问题