如何通过aws胶水外部Spark包?

uujelgoq  于 2021-07-09  发布在  Spark
关注(0)|答案(1)|浏览(576)

例如,我想阅读aws glue中的gcp bigquery表。我知道在spark中可以声明连接到特定数据源的依赖关系。如何在aws胶水环境中实现这一点并传递这种依赖关系?

vohkndzv

vohkndzv1#

在glue中,可以这样开始一个spark会话

from pyspark.sql import SparkSession

spark = SparkSession.builder\
    .appName("my-app") \
    .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\
    .getOrCreate()

例如,可以通过config()方法向spark会话提供参数 spark.jars.packages 并从maven存储库中指定要使用的包(在本例中是用于连接到googlebigquery的包)。
但这还不够,还需要将jar包上传到s3。之后,将这个s3路径作为jar lib path/dependent jars path提供给粘合作业

相关问题