将pyspark commoncrawl repo部署到emr

xkftehaa 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(329)

我正在尝试从emr集群中的公共commoncrawl数据中提取湿文件。为了做到这一点，commoncrawl有一个cc-pyspark-repo，在那里他们提供了示例和说明，但是，我不明白如何让事情进行下去。如何将此repo部署到集群？这应该是我的引导脚本的一部分吗？
最终目标是通过spark作业处理湿文件中的文本。到目前为止，我一直在使用托管笔记本来尝试用boto3下载湿文件，但没有成功。
下面是我用来引导emr和其他python包的代码。

python apache-spark pyspark amazon-emr common-crawl

来源：https://stackoverflow.com/questions/64097427/deploying-pyspark-commoncrawl-repo-to-emr

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

将pyspark commoncrawl repo部署到emr

暂无答案！

相关问题

热门标签

最新问答