# Load required library and set hadoop environment
library(rhdfs)
Sys.setenv("HADOOP_CMD"="/opt/cloudera/parcels/CDH/bin/hadoop")
# Initialise
hdfs.init()
# Extract files names from a given hdfs folder to a data frame
files <- as.data.frame(hdfs.ls('/'))
4条答案
按热度按时间kqlmhetl1#
我用了rhipe的命令
rhlist("/")
它返回Dataframe。rjzwgtxy2#
虽然人们可能会发现这个答案很有用,但下面是使用rhdfs将特定hdfs文件夹中的文件名获取到r中的代码。
r代码:
输出:
jaql4c8m3#
结果是当前工作目录中文件名的字符向量
但我突然想到hadoop很特别。所以也许这在你的情况下管用
结果还是文件名的字符向量,假设“hadoopfs-ls”在系统控制台中实际返回类似于“ls”的内容。
qlvxas9a4#
查看rhadoop项目。尤其是需要列出文件的包是rhdfs。