我试图上传/导入CSV文件在MongoDB在我的本地,这是我正在尝试
from pyspark.sql import SparkSession
from pyspark.conf import SparkConf
conf = SparkConf() \
.setAppName("MongoDB") \
.setMaster("local[*]") \
.set("spark.mongodb.input.uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR") \
.set("spark.mongodb.output.uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR")
spark = SparkSession.builder \
.config(conf=conf) \
.getOrCreate()
df = spark.read.csv("mypathtocsvfile", header=True, inferSchema=True)
df.write \
.format("com.mongodb.spark.sql.DefaultSource") \
.mode("append") \
.option("uri", "mongodb://localhost:27017/Scrub_Data.RPT_AR") \
.save()
以上代码抛出Py 4JJavaError调用o39.save时出错。:java.lang.ClassNotFoundException:找不到数据源:com.mongodb.spark.sql.DefaultSource
1条答案
按热度按时间wfypjpf41#
错误消息提示您的系统上没有MongoDB的Spark连接器。您需要确保安装了Spark与MongoDB通信所需的包。