我有一个spark代码,运行在一个Yarn集群上,并使用databricks库将csv转换为parquet。
当csv源是hdfs时,它可以正常工作。但是当csv源代码是非hdfs时(通常是这样),我会遇到这个异常。这不应该发生,因为相同的代码适用于hdfs csv源代码。
完整的问题链接:https://issues.apache.org/jira/browse/spark-19344
我有一个spark代码,运行在一个Yarn集群上,并使用databricks库将csv转换为parquet。
当csv源是hdfs时,它可以正常工作。但是当csv源代码是非hdfs时(通常是这样),我会遇到这个异常。这不应该发生,因为相同的代码适用于hdfs csv源代码。
完整的问题链接:https://issues.apache.org/jira/browse/spark-19344
1条答案
按热度按时间sulc1iza1#
正如评论中所讨论的。
当文件位于驱动程序节点上,但节点无法访问时,读取将失败。
当使用读取输入文件时(例如。
spark.read
在spark 2.0中,所有executors节点都应该访问文件(例如,当文件位于hdfs、cassandra等上时)