ApacheSpark 2.0(PySpark)-找到CSV的多个源时出现DataFrame错误

inb24sb2 于 2022-10-07 发布在 Apache

关注(0)|答案(3)|浏览(259)

我正在尝试使用Spark 2.0中的以下代码创建 Dataframe 。在Jupyter/Console中执行代码时，我面临以下错误。有谁能帮我排除这个错误吗？

错误：

Py4JJava错误：调用o34.csv时出错。：java.lang.Rty异常：为csv(org.apache.spark.sql.execution.datasources.csv.CSVFileFormat，找到多个源)，请指定完全限定的类名。在scala.sys.Package$.error(Package.scala：27)

代码：

from pyspark.sql import SparkSession
   if __name__ == "__main__":
      session = SparkSession.builder.master('local')
                     .appName("RealEstateSurvey").getOrCreate()
      df = session 
           .read 
           .option("inferSchema", value = True) 
           .option('header','true') 
           .csv("/home/senthiljdpm/RealEstate.csv")

     print("=== Print out schema ===")
     session.stop()

pyspark

来源：https://stackoverflow.com/questions/50884599/apache-spark-2-0-pyspark-dataframe-error-multiple-sources-found-for-csv

3条答案

按热度按时间

sd2nnvve1#

错误是因为您的类路径中必须同时包含两个库(org.apache.spark.sql.execution.datasources.csv.CSVFileFormat和com.databricks.spark.csv.DefaultSource)。斯帕克对该选哪一个感到困惑。

您所需要做的就是通过将format选项定义为

df = session 
       .read 
       .format("com.databricks.spark.csv") 
       .option("inferSchema", value = True) 
       .option('header','true') 
       .csv("/home/senthiljdpm/RealEstate.csv")

另一种替代方法是将load用作

df = session 
       .read 
       .format("com.databricks.spark.csv") 
       .option("inferSchema", value = True) 
       .option('header','true') 
       .load("/home/senthiljdpm/RealEstate.csv")

赞(0）回复(0）举报 2022-10-07

fcipmucu2#

如果有人在Spark Java中遇到类似的问题，那可能是因为您的类路径中有多个版本的Spark-SQL JAR。仅供参考。

赞(0）回复(0）举报 2022-10-07

k4ymrczo3#

我曾经遇到过同样的问题，当我将pom.xml中使用的Hudi版本从9.0更改为11.1时，我得到了修复

赞(0）回复(0）举报 2022-10-07