将pyspark commoncrawl repo部署到emr

xkftehaa  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(327)

我正在尝试从emr集群中的公共commoncrawl数据中提取湿文件。为了做到这一点,commoncrawl有一个cc-pyspark-repo,在那里他们提供了示例和说明,但是,我不明白如何让事情进行下去。如何将此repo部署到集群?这应该是我的引导脚本的一部分吗?
最终目标是通过spark作业处理湿文件中的文本。到目前为止,我一直在使用托管笔记本来尝试用boto3下载湿文件,但没有成功。
下面是我用来引导emr和其他python包的代码。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题