在aws deequ的scala框架中,有一个非常好的有状态计算的例子,这使得deequ成为我们数据工程管道的一个非常有趣的候选者:https://github.com/awslabs/deequ/blob/master/src/main/scala/com/amazon/deequ/examples/algebraic_states_example.md
然而,目前我们的完整管道是Python的,我没有在pydeequ中找到这个特性。
我发现这个stackoverflow的帖子,对我来说似乎已经解决了这个问题:PyDeequ - incremental metrics collection(我认为问题不在于附加报告,而在于将检查的内部状态保持在一种状态,在这种状态下,我不必查询完整的数据集来获得诸如平均值之类的度量)。
有没有一种简单的方法可以在Python中重现与上面链接中类似的东西?
先谢谢你了!
1条答案
按热度按时间s3fp2yjn1#
只是想跟进一下,我们是否找到了解决方案?我没有看到在Pydeequ中我们可以在运行onData之前预先保存分析器或验证规则。谢谢