例如,我想阅读aws glue中的gcp bigquery表。我知道在spark中可以声明连接到特定数据源的依赖关系。如何在aws胶水环境中实现这一点并传递这种依赖关系?
vohkndzv1#
在glue中,可以这样开始一个spark会话
from pyspark.sql import SparkSession spark = SparkSession.builder\ .appName("my-app") \ .config('spark.jars.packages', 'com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.1')\ .getOrCreate()
例如,可以通过config()方法向spark会话提供参数 spark.jars.packages 并从maven存储库中指定要使用的包(在本例中是用于连接到googlebigquery的包)。但这还不够,还需要将jar包上传到s3。之后,将这个s3路径作为jar lib path/dependent jars path提供给粘合作业
spark.jars.packages
1条答案
按热度按时间vohkndzv1#
在glue中,可以这样开始一个spark会话
例如,可以通过config()方法向spark会话提供参数
spark.jars.packages
并从maven存储库中指定要使用的包(在本例中是用于连接到googlebigquery的包)。但这还不够,还需要将jar包上传到s3。之后,将这个s3路径作为jar lib path/dependent jars path提供给粘合作业