如何通过aws胶水外部Spark包？

uujelgoq 于 2021-07-09 发布在 Spark

关注(0)|答案(1)|浏览(576)

例如，我想阅读aws glue中的gcp bigquery表。我知道在spark中可以声明连接到特定数据源的依赖关系。如何在aws胶水环境中实现这一点并传递这种依赖关系？

apache-spark pyspark aws-glue google-bigquery amazon-web-services

来源：https://stackoverflow.com/questions/66987358/how-to-pass-aws-glue-external-spark-packages

1条答案

按热度按时间

vohkndzv1#

在glue中，可以这样开始一个spark会话

from pyspark.sql import SparkSession

spark = SparkSession.builder\
    .appName("my-app") \
    .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\
    .getOrCreate()

例如，可以通过config（）方法向spark会话提供参数 spark.jars.packages 并从maven存储库中指定要使用的包（在本例中是用于连接到googlebigquery的包）。
但这还不够，还需要将jar包上传到s3。之后，将这个s3路径作为jar lib path/dependent jars path提供给粘合作业

赞(0）回复(0）举报 2021-07-09

我来回答

如何通过aws胶水外部Spark包？

1条答案

相关问题

热门标签

最新问答