我是Great Expectations包的新手。我找到了这个教程,用于连接到数据源,验证数据并将输出可视化为数据文档,该文档保存为html。https://docs.greatexpectations.io/docs/tutorials/getting_started/tutorial_setup
但是我无法运行教程中使用的CLI命令。有没有办法从内存中的panda Dataframe 上运行的一系列预期结果中生成上面教程中看到的数据文档?
本文介绍了如何在读入的panda Dataframe 上执行期望结果,并为每个期望输出一个结果字典,但是它没有解释如何获取结果并将其转换为数据docs. https://towardsdatascience.com/a-great-python-library-great-expectations-6ac6d6fe822e
Minimal Reproducible Example
Python==3.8.15
Packages:
great-expectations==0.15.41
pandas==1.5.2
import pandas as pd
import great_expectations as gx
# simple dataframe
df = pd.DataFrame({'A': [1, 2, 3, 4, 5],
'B': ['a','b','c','d','e']})
# Turn into GX dataframe
df = gx.from_pandas(df)
df.head()
[enter image description here](https://i.stack.imgur.com/5IC9R.png)
gx_result = df.expect_column_to_exist("A")
print(gx_result)
[enter image description here](https://i.stack.imgur.com/yF3tS.png)
# Code to convert expectation result into data doc
I have also found this piece of documentation that refers to creating a data doc, but am unsure how to connect it with the code above. https://docs.greatexpectations.io/docs/terms/data_docs/
Thanks in advance
1条答案
按热度按时间sd2nnvve1#
嗨,詹姆斯以下是使用编程方式实现您正在寻找的内容的步骤。
1.使用python连接到运行时panda。检查是否无cli+无文件系统选项卡。https://docs.greatexpectations.io/docs/guides/connecting_to_your_data/in_memory/pandas/
1.创建检查点。使用Python部分。参考第5节。验证数据。在适用的情况下,从sparkdf更改为pandasdf。https://docs.greatexpectations.io/docs/deployment_patterns/how_to_use_great_expectations_in_emr_serverless。
你需要结合你的上下文来实现你想要的代码。
希望有帮助。