我正在工作的aws胶水和利用pysparkapi为我的etl。我相信如果我需要使用amazon deequ,我需要切换到scala。不过,我仍然希望contine使用pyspark api。有出路吗?如果是,在aws胶水中我需要遵循哪些步骤?谢谢
polhcujo1#
感谢您的建议GreateExpections是一个很棒的库,但它是依赖于c的包。不幸的是,aws glue不支持pyspark的c依赖库https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html恐怕我不能用“伟大的期望”任何其他Pypark图书馆的建议将不胜感激
iecba09b2#
deequ有一个python Package 器,叫做pydeequ,它应该可以工作,尽管我自己还没有用过。如果您想使用python,我建议您查看实现与deequ非常相似的功能的greatexpectations库,包括对pyspark的支持。
2条答案
按热度按时间polhcujo1#
感谢您的建议GreateExpections是一个很棒的库,但它是依赖于c的包。不幸的是,aws glue不支持pyspark的c依赖库
https://docs.aws.amazon.com/glue/latest/dg/aws-glue-programming-python-libraries.html
恐怕我不能用“伟大的期望”
任何其他Pypark图书馆的建议将不胜感激
iecba09b2#
deequ有一个python Package 器,叫做pydeequ,它应该可以工作,尽管我自己还没有用过。
如果您想使用python,我建议您查看实现与deequ非常相似的功能的greatexpectations库,包括对pyspark的支持。