我有一个专栏,里面有段落。这是一个10000行的列,我需要找出哪个列有真实的电子邮件id columnname matches '(.*)@(.*).(.*)'
,这也给了我类似的输出 '@nelson' '.... @kumar...'
等我不需要的东西。我只需要一个真正的电子邮件id。请让我知道如何找到这么大的段落使用apachePig代码。
谢谢:)
我有一个专栏,里面有段落。这是一个10000行的列,我需要找出哪个列有真实的电子邮件id columnname matches '(.*)@(.*).(.*)'
,这也给了我类似的输出 '@nelson' '.... @kumar...'
等我不需要的东西。我只需要一个真正的电子邮件id。请让我知道如何找到这么大的段落使用apachePig代码。
谢谢:)
1条答案
按热度按时间abithluo1#
因为pig使用java正则表达式形式,所以您可以使用这样的东西,它将涵盖大多数情况。
如果您想要更多的表达式,一个简单的“javaemailvalidation regex”搜索应该会提供大量的表达式来验证电子邮件地址。