我在scala和spark环境中工作,我想阅读Parquet文件。在阅读之前,我想检查文件是否存在。我在jupyter notebook中编写了以下代码,但它不起作用-这意味着它不显示任何帧,因为函数testdirexist返回false
import org.apache.hadoop.fs.FileSystem
import org.apache.hadoop.fs.Path
val hadoopfs: FileSystem = FileSystem.get(spark.sparkContext.hadoopConfiguration)
def testDirExist(path: String): Boolean = {
val p = new Path(path)
hadoopfs.exists(p) && hadoopfs.getFileStatus(p).isDirectory
}
val pt = "abfss://container@account.dfs.core.windows.net/blah/blah/blah
val exists = testDirExist(pt)
if(exists)
{
val dataframe = spark.read.parquet(pt)
dataframe.show()
}
但是,下面的代码可以工作。它显示Dataframe
val k = spark.read.parquet("abfss://container@account.dfs.core.windows.net/blah/blah/blah)
k.show()
有人能帮我检查一下文件是否存在吗?
谢谢
1条答案
按热度按时间cetgtptt1#
您只需将默认文件系统设置为存储帐户: