如何使用spark scala保存rdd并将其加载到远程配置单元？

vwoqyblh 于 2021-06-26 发布在 Hive

关注(0)|答案(1)|浏览(305)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗？**通过编辑这篇文章更新这个问题，使它只关注一个问题。

三年前关门了。
改进这个问题
现在我正在使用sqoop将数据写入rdbms。因此，它将数据存储到hdfs，然后存储到rdbms。有没有办法将rdd直接存储到hive？

Hive apache-spark

来源：https://stackoverflow.com/questions/43842117/how-to-save-and-load-rdd-to-remote-hive-using-spark-scala

1条答案

按热度按时间

yfjy0ee71#

是的，你会写字 RDD 去Hive，一种写作的方式 RDD 到hive是将rdd转换为df，然后将savetableas（）如下所示

import org.apache.spark.sql.hive.HiveContext

val hiveContext = new HiveContext(sc)

import hiveContext.implicits._

//read data perform some transformation

val myDF = myRdd.toDF("column names")

然后可以创建一个表并转储数据

myDF.write.saveAsTable("tableName")

//with save mode 
myDF.write().mode(SaveMode.Overwrite).saveAsTable("tableName")

您可以添加保存模式，因为上面的保存模式是append、ignore、overwrite、errorifexists

赞(0）回复(0）举报 2021-06-26

我来回答

如何使用spark scala保存rdd并将其加载到远程配置单元？

1条答案

相关问题

热门标签

最新问答