我正在运行100个查询(测试用例)来检查sparkscala中的数据质量。我正在从配置单元表查询数据。
空数据框是这些示例查询的预期结果:
SELECT car_type FROM car_data WHERE car_version is null
SELECT car_color FROM car_data WHERE car_date is null
SELECT car_sale FROM car_data WHERE car_timestamp is null
我想根据预期结果将测试用例是否通过写入文本文件。我想知道实现这一目标的最佳方法。
到目前为止我所拥有的:
val test_1 = context.sql("SELECT car_type FROM car_data WHERE car_version is null")
val test_2 = context.sql("SELECT car_color FROM car_data WHERE car_date is null")
val test_3 = context.sql("SELECT car_sale FROM car_data WHERE car_timestamp is null")
test_1.head(1).isEmpty
1条答案
按热度按时间eanckbw91#
如果你想知道
NULL
,可以使用条件聚合。我倾向于用一个查询运行所有测试:注意:这会考虑一个空表通过测试,而您的代码不会。这些可以很容易地修改以处理这种情况,但这种行为对我来说是有意义的。