在windows上用sparkr访问hdfsParquet文件

dldeef67 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(265)

从windows下的r或rstudio，我正在尝试访问远处hadoop集群中的Parquet文件：

Sys.setenv(SPARK_HOME = "C:\\Users\\me\\Hadoop\\spark-2.3.0-bin-hadoop2.7", HADOOP_HOME = "/opt/hadoop-2.9.0", SPARK_HOME_VERSION="2.3.0" )

.libPaths(c(file.path(Sys.getenv("SPARK_HOME" ), "R", "lib" ), .libPaths()))
library(SparkR)
sc <- sparkR.session(enableHiveSupport = FALSE,master = "spark://10.123.45.67:7077", sparkConfig = list(spark.driver.memory = "2g" ))

patient <- read.parquet("pseudo/patient" )

我知道连接很好，因为工作出现在spark webui中。但是当read.parquet被执行时，我从sparkr得到以下错误：

Error: Error in parquet : analysis error - Path does not exist: file:/C:/Users/me/Documents/pseudo/patient;

发生什么事了？我忘了什么？
如果我使用集群中的sparkr，我需要以用户hadoop的身份连接到other中，以查看hdfs中的数据。显然，在上面的代码中，我并没有使用hadoop连接。如何定义其他用户对数据的访问权限？

hadoop apache-spark r sparkr

来源：https://stackoverflow.com/questions/50147416/accessing-hdfs-parquet-files-with-sparkr-on-windows

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在windows上用sparkr访问hdfsParquet文件

暂无答案！

相关问题

热门标签

最新问答