我需要解析列中的url字符串 refererurl
在Spark测向。数据如下所示:
refererurl
https://www.delish.com/cooking/recipes/t678
https://www.delish.com/food/recipes/a463/
https://www.delish.com/cooking/recipes/g877
我只对后来发生的事感兴趣 delish.com
. 期望输出为:
content
cooking
food
cooking
我试过:
data.withColumn("content", fn.regexp_extract('refererurl', 'param1=(\d)', 2))
返回所有空值
2条答案
按热度按时间ttvkxqim1#
另一种解决问题的方法是使用split和element_at函数,以防我们知道字符串的位置始终保持不变。
输入
输出
gcuhipw92#
您可以使用parse\u url获取url的路径,然后使用regexp\u extract获取路径的第一级:
输出: