在PB级数据上验证复杂sql的方法有哪些?

lfapxunr  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(229)

我正在编写一个相当长的sql脚本,实现缓慢变化的维度(类型2)以及其他业务逻辑。它运行在apache配置单元中PB大小的数据上。
因为它会随着时间的推移跟踪变化,所以我很难找到验证这个过程是否正常工作的最佳方法。如果是较小的数据,我可以根据行大小、增长率和更仔细地查看结果行来获得某种准确性。然而,这对于如此大的数据是不实际的。理论上,我也可以挑选一些ID并进行抽查,但这很可能会遗漏边缘案例或不太明显的bug。
有什么方法可以用来以更健壮的方式测试我的sql代码,尽管它很大?有没有为sql编写单元测试的概念(如果有,那会是什么样子的)?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题