无法使用spark合并小型orc文件

xmakbtuz 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(434)

我有一个外部orc表，里面有大量的小文件，这些文件每天都来自源代码。我需要把这些文件合并成更大的文件。
我试着把orc文件加载到spark并用覆盖方法保存

val fileName = "/user/db/table_data/"  //This table contains multiple partition on date column with small data files.
val df = hiveContext.read.format("orc").load(fileName)
df.repartition(1).write.mode(SaveMode.Overwrite).partitionBy("date").orc("/user/db/table_data/)

但是 mode(SaveMode.Overwrite) 正在从hdfs中删除所有数据。当我试着 mode(SaveMode.Overwrite) 方法，它抛出的错误文件已存在。
有人能帮我继续吗？

hadoop apache-spark hadoop2 orc

来源：https://stackoverflow.com/questions/52201458/unable-to-merge-small-orc-files-using-spark