如何使用spark scala保存rdd并将其加载到远程配置单元?

vwoqyblh  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(305)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

三年前关门了。
改进这个问题
现在我正在使用sqoop将数据写入rdbms。因此,它将数据存储到hdfs,然后存储到rdbms。有没有办法将rdd直接存储到hive?

yfjy0ee7

yfjy0ee71#

是的,你会写字 RDD 去Hive,一种写作的方式 RDD 到hive是将rdd转换为df,然后将savetableas()如下所示

import org.apache.spark.sql.hive.HiveContext

val hiveContext = new HiveContext(sc)

import hiveContext.implicits._

//read data perform some transformation

val myDF = myRdd.toDF("column names")

然后可以创建一个表并转储数据

myDF.write.saveAsTable("tableName")

//with save mode 
myDF.write().mode(SaveMode.Overwrite).saveAsTable("tableName")

您可以添加保存模式,因为上面的保存模式是append、ignore、overwrite、errorifexists

相关问题