如果我有一组电子邮件,我从一个名为users的配置单元表中检索到,在下面的spark代码中:
val sparkConf = new SparkConf().setAppName("YOUR_APP_NAME").setMaster("local[10]")
val sc = new SparkContext(sparkConf)
val sqlContext = new SQLContext(sc)
val hiveContext = new HiveContext(sc)
hiveContext.setConf("hive.metastore.uris", "METASTORE_URI_NAME_HERE")
val df = hiveContext.sql("SELECT email FROM USERS")
现在df由一个Dataframe组成,其中一行包含所有电子邮件地址。在scala中是否有一种方法可以验证电子邮件地址,例如:(https://pypi.python.org/pypi/validate_email)除了这个是python,我需要一个scala。或者nlp也是一个很好的用例?
我被困在如何验证这些电子邮件地址,我需要的不仅仅是一些正则表达式。我需要一种方法来检查电子邮件地址的域是否有smtp服务器。
类似这样的内容(scala除外):
is_valid = validate_email('example@example.com',check_smtp_connection = True)
1条答案
按热度按时间np8igboo1#
您肯定不需要自然语言处理来验证电子邮件。你应该使用
javamail
为此,它支持smtp验证。还要注意,检查电子邮件是否真的存在的唯一可能的方法是向用户发送唯一的链接并要求跟踪它。