尝试使用PySpark将CSV导入MongoDB时出错

o0lyfsai  于 2023-04-03  发布在  Spark
关注(0)|答案(1)|浏览(163)

我试图上传/导入CSV文件在MongoDB在我的本地,这是我正在尝试

from pyspark.sql import SparkSession
from pyspark.conf import SparkConf

conf = SparkConf() \
    .setAppName("MongoDB") \
    .setMaster("local[*]") \
    .set("spark.mongodb.input.uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR") \
    .set("spark.mongodb.output.uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR")

spark = SparkSession.builder \
    .config(conf=conf) \
    .getOrCreate()

df = spark.read.csv("mypathtocsvfile", header=True, inferSchema=True)

df.write \
    .format("com.mongodb.spark.sql.DefaultSource") \
    .mode("append") \
    .option("uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR") \
    .save()

以上代码抛出Py 4JJavaError调用o39.save时出错。:java.lang.ClassNotFoundException:找不到数据源:com.mongodb.spark.sql.DefaultSource

wfypjpf4

wfypjpf41#

错误消息提示您的系统上没有MongoDB的Spark连接器。您需要确保安装了Spark与MongoDB通信所需的包。

相关问题