如何在vm gcp中安装spark bigquery连接器？

2g32fytz 于 2021-05-17 发布在 Spark

关注(0)|答案(2)|浏览(578)

我在gcp中安装了带有spark的vm映像集群hadoop，但它不是dataproc。我可以不使用dataproc安装spark bigquery连接器吗？如果是，我怎么做？我找到了下载连接器的链接https://github.com/googleclouddataproc/spark-bigquery-connector

hadoop python apache-spark google-bigquery google-cloud-platform

来源：https://stackoverflow.com/questions/64826554/how-to-install-spark-bigquery-connector-in-the-vm-gcp

2条答案

按热度按时间

qybjjes11#

是的，您可以从github站点下载并安装到spark集群中。或者，您可以添加 --packages com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.0 到spark命令（spark submit/pyspark/spark shell）。
编辑
选项很少：
运行spark应用程序时，请运行 pyspark <params> --packages com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.0 . 运行spark submit或spark shell也是如此
从存储库下载jar并将其复制到 /usr/lib/spark/jars/ 目录。通常这是在集群可用后通过脚本完成的（使用init操作）。
在运行时下载jar，如您所述：

from pyspark.sql import SparkSession
spark = SparkSession.builder \
  .config("spark.jars.packages", "com.google.cloud.spark:spark-bigquery-with-dependencies_2.11:0.18.0") \
  .getOrCreate()

赞(0）回复(0）举报 2021-05-17

f1tvaqid2#

如果我理解正确，您的集群不是本地dataproc集群。您创建了一组示例（至少一个）并手动安装了hadoop集群。这个场景更像是在prem上安装hadoop（使用gcp基础设施）；不幸的是，bigquery连接器文档没有指定它是否可以在dataproc之外使用，但是我认为应该这样做，因为连接器是一个jar文件。在下载和使用连接器一节中，您可以下载最新版本或其他版本，以防其中一个版本不起作用。
要在gcp vm示例中安装连接器，需要将其包含在应用程序的java类路径中：
将它包含在已经添加到java类路径中的spark目录中。或者您可以添加一个新条目（当您的会话在提示符中结束时，此更改将被清除）： export CLASSPATH=</path/to/bigquery-connector.jar>:$CLASSPATH 在提交spark应用程序时使用--jars选项。
上面的选项将允许您在本地运行spark作业。要将作业提交到hadoop集群，应该确保连接器也包含在其类路径中，我建议使用 HADOOP_CLASSPATH . 此线程包含有关它的更多详细信息。

赞(0）回复(0）举报 2021-05-17

我来回答

如何在vm gcp中安装spark bigquery连接器？

2条答案

相关问题

热门标签

最新问答