如何在apache pig中查找包含大量单词的列是否具有真实的电子邮件id?

q9yhzks0  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(193)

我有一个专栏,里面有段落。这是一个10000行的列,我需要找出哪个列有真实的电子邮件id columnname matches '(.*)@(.*).(.*)' ,这也给了我类似的输出 '@nelson' '.... @kumar...' 等我不需要的东西。我只需要一个真正的电子邮件id。请让我知道如何找到这么大的段落使用apachePig代码。
谢谢:)

abithluo

abithluo1#

因为pig使用java正则表达式形式,所以您可以使用这样的东西,它将涵盖大多数情况。

columnname matches '^[A-Z0-9._%+-]+@[A-Z0-9.-]+\\.[A-Z]{2,6}$'

如果您想要更多的表达式,一个简单的“javaemailvalidation regex”搜索应该会提供大量的表达式来验证电子邮件地址。

相关问题