我的hdfs文件夹中有多个文件,我想在上面循环并运行scala转换逻辑。
我正在使用下面的脚本,它在使用本地文件的开发环境中运行良好,但在hdfs环境中运行时失败。你知道我哪里做错了吗?
val files = new File("hdfs://172.X.X.X:8020/landing/").listFiles.map(_.getName).toList
files.foreach { file =>
print(file)
val event = spark.read.option("multiline", "true").json("hdfs://172.X.X.X:8020/landing/" + file)
event.show(false)
}
有人能纠正它或建议替代方案请。
1条答案
按热度按时间mefy6pfw1#
您应该使用hadoop io库来处理hadoop文件。
代码: