在windows上用sparkr访问hdfsParquet文件

dldeef67  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(265)

从windows下的r或rstudio,我正在尝试访问远处hadoop集群中的Parquet文件:

Sys.setenv(SPARK_HOME = "C:\\Users\\me\\Hadoop\\spark-2.3.0-bin-hadoop2.7", HADOOP_HOME = "/opt/hadoop-2.9.0", SPARK_HOME_VERSION="2.3.0" )

.libPaths(c(file.path(Sys.getenv("SPARK_HOME" ), "R", "lib" ), .libPaths()))
library(SparkR)
sc <- sparkR.session(enableHiveSupport = FALSE,master = "spark://10.123.45.67:7077", sparkConfig = list(spark.driver.memory = "2g" ))

patient <- read.parquet("pseudo/patient" )

我知道连接很好,因为工作出现在spark webui中。但是当read.parquet被执行时,我从sparkr得到以下错误:

Error: Error in parquet : analysis error - Path does not exist: file:/C:/Users/me/Documents/pseudo/patient;

发生什么事了?我忘了什么?
如果我使用集群中的sparkr,我需要以用户hadoop的身份连接到other中,以查看hdfs中的数据。显然,在上面的代码中,我并没有使用hadoop连接。如何定义其他用户对数据的访问权限?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题