pyspark版本的amazon deequ

laawzig2  于 2021-05-24  发布在  Spark
关注(0)|答案(2)|浏览(640)

我正在工作的aws胶水和利用pysparkapi为我的etl。我相信如果我需要使用amazon deequ,我需要切换到scala。不过,我仍然希望contine使用pyspark api。有出路吗?如果是,在aws胶水中我需要遵循哪些步骤?
谢谢

polhcujo

polhcujo1#

感谢您的建议GreateExpections是一个很棒的库,但它是依赖于c的包。不幸的是,aws glue不支持pyspark的c依赖库
https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html
恐怕我不能用“伟大的期望”
任何其他Pypark图书馆的建议将不胜感激

iecba09b

iecba09b2#

deequ有一个python Package 器,叫做pydeequ,它应该可以工作,尽管我自己还没有用过。
如果您想使用python,我建议您查看实现与deequ非常相似的功能的greatexpectations库,包括对pyspark的支持。

相关问题