如何将sparkDataframe保存为已分区配置单元表的分区

23c0lvtd  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(371)

如何将sparkDataframe保存到已分区配置单元表的一个分区中?

raw_nginx_log_df.write.saveAsTable("raw_nginx_log")

上述方法可以覆盖整个表,但不能覆盖特定的分区。虽然我可以通过下面的代码来解决这个问题,但它显然不优雅。

raw_nginx_log_df.registerTempTable("tmp_table")
sql(s"INSERT OVERWRITE TABLE raw_nginx_log PARTITION (par= '$PARTITION_VAR')")

在stackoverflowc.com中似乎从来没有提出过类似的问题!

gmxoilav

gmxoilav1#

YourDataFrame.write.format("parquet").option("/pathHiveLocation").mode(SaveMode.Append).partitionBy("partitionCol").saveAsTable("YourTable")

用于Parquet文件/table。您可以根据您的要求定制。

相关问题