我正在尝试从emr集群中的公共commoncrawl数据中提取湿文件。为了做到这一点,commoncrawl有一个cc-pyspark-repo,在那里他们提供了示例和说明,但是,我不明白如何让事情进行下去。如何将此repo部署到集群?这应该是我的引导脚本的一部分吗?
最终目标是通过spark作业处理湿文件中的文本。到目前为止,我一直在使用托管笔记本来尝试用boto3下载湿文件,但没有成功。
下面是我用来引导emr和其他python包的代码。
我正在尝试从emr集群中的公共commoncrawl数据中提取湿文件。为了做到这一点,commoncrawl有一个cc-pyspark-repo,在那里他们提供了示例和说明,但是,我不明白如何让事情进行下去。如何将此repo部署到集群?这应该是我的引导脚本的一部分吗?
最终目标是通过spark作业处理湿文件中的文本。到目前为止,我一直在使用托管笔记本来尝试用boto3下载湿文件,但没有成功。
下面是我用来引导emr和其他python包的代码。
暂无答案!
目前还没有任何答案,快来回答吧!