从windows下的r或rstudio,我正在尝试访问远处hadoop集群中的Parquet文件:
Sys.setenv(SPARK_HOME = "C:\\Users\\me\\Hadoop\\spark-2.3.0-bin-hadoop2.7", HADOOP_HOME = "/opt/hadoop-2.9.0", SPARK_HOME_VERSION="2.3.0" )
.libPaths(c(file.path(Sys.getenv("SPARK_HOME" ), "R", "lib" ), .libPaths()))
library(SparkR)
sc <- sparkR.session(enableHiveSupport = FALSE,master = "spark://10.123.45.67:7077", sparkConfig = list(spark.driver.memory = "2g" ))
patient <- read.parquet("pseudo/patient" )
我知道连接很好,因为工作出现在spark webui中。但是当read.parquet被执行时,我从sparkr得到以下错误:
Error: Error in parquet : analysis error - Path does not exist: file:/C:/Users/me/Documents/pseudo/patient;
发生什么事了?我忘了什么?
如果我使用集群中的sparkr,我需要以用户hadoop的身份连接到other中,以查看hdfs中的数据。显然,在上面的代码中,我并没有使用hadoop连接。如何定义其他用户对数据的访问权限?
暂无答案!
目前还没有任何答案,快来回答吧!