我正在尝试使用Spark 2.0中的以下代码创建 Dataframe 。在Jupyter/Console中执行代码时,我面临以下错误。有谁能帮我排除这个错误吗?
错误:
Py4JJava错误:调用o34.csv时出错。:java.lang.Rty异常:为csv(org.apache.spark.sql.execution.datasources.csv.CSVFileFormat,找到多个源),请指定完全限定的类名。在scala.sys.Package$.error(Package.scala:27)
代码:
from pyspark.sql import SparkSession
if __name__ == "__main__":
session = SparkSession.builder.master('local')
.appName("RealEstateSurvey").getOrCreate()
df = session
.read
.option("inferSchema", value = True)
.option('header','true')
.csv("/home/senthiljdpm/RealEstate.csv")
print("=== Print out schema ===")
session.stop()
3条答案
按热度按时间sd2nnvve1#
错误是因为您的类路径中必须同时包含两个库(
org.apache.spark.sql.execution.datasources.csv.CSVFileFormat
和com.databricks.spark.csv.DefaultSource
)。斯帕克对该选哪一个感到困惑。您所需要做的就是通过将
format
选项定义为另一种替代方法是将
load
用作fcipmucu2#
如果有人在Spark Java中遇到类似的问题,那可能是因为您的类路径中有多个版本的Spark-SQL JAR。仅供参考。
k4ymrczo3#
我曾经遇到过同样的问题,当我将pom.xml中使用的Hudi版本从9.0更改为11.1时,我得到了修复