无法从本地目录读取spark程序中的文件

2skhul33  于 2022-12-13  发布在  Apache
关注(0)|答案(2)|浏览(158)

我无法在spark程序中读取本地csv文件。我正在使用PyCharm IDE。虽然我可以使用位置参数来读取文件,但无法使用文件位置。有人可以帮助吗?

// code
    # Processing logic here...
    flightTimeCsvDF = spark.read \
        .format("csv") \
        .option("header", "true") \
        .load("data/flight*.csv")
        # .load(sys.argv[1])

\\error
Exception in thread "globPath-ForkJoinPool-1-worker-1" java.lang.UnsatisfiedLinkError: 'boolean org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(java.lang.String, int)'
    at org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Native Method)
    at org.apache.hadoop.io.nativeio.NativeIO$Windows.access(NativeIO.java:793)
    at org.apache.hadoop.fs.FileUtil.canRead(FileUtil.java:1218)
    at org.apache.hadoop.fs.FileUtil.list(FileUtil.java:1423)
    at org.apache.hadoop.fs.RawLocalFileSystem.listStatus(RawLocalFileSystem.java:601)
    at org.apache.hadoop.fs.FileSystem.listStatus(FileSystem.java:1972)
    at org.apache.hadoop.fs.FileSystem.listStatus(FileSystem.java:2014)
    at org.apache.hadoop.fs.ChecksumFileSystem.listStatus(ChecksumFileSystem.java:761)
    at org.apache.hadoop.fs.Globber.listStatus(Globber.java:128)

enter image description here

gmol1639

gmol16391#

请使用绝对路径。从所附的图像来看,我相信使用以下方法将有助于解决此问题。

.load("C:\\Users\\psultania\\Anaconda3\\envs\\04-SparkSchemaDemo\\data\\flight*.csv")

如果要为输入CSV使用不同的目录,请相应地更改目录定义。

2w3rbyxf

2w3rbyxf2#

是的,它使用绝对路径工作

相关问题