如何连接到pivotal hd(来自spark)?

ppcbkaq5  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(608)

我想知道如何将spark应用程序连接到pivotal hd,一个hadoop实现。
使用spark连接到它的最佳方式是什么?

val jdbcDataFrame = sqlContext.read.format("jdbc").options(
  Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
hgqdbh6s

hgqdbh6s1#

我知道你的问题已经被编辑过了,但我会尽力回答你所有的问题。
pivotal hd(以前称为greenplum hd)是hadoop发行版,因此您应该像使用任何hadoop/hdfs发行版一样使用它。明确地:

text_file = spark.textFile("hdfs://...")

或通过Yarn运行作业,请参见:
http://spark.apache.org/docs/latest/running-on-yarn.html
greenplum db(分布式postgres)不支持hd。例外情况是,如果您指的是pivotal hawq,它实际上是hdfs之上的greenplum db。
greenplum是一家创建greenplum db和greenplum hd的公司,被emc收购。然后,emc将若干业务分组到“pivotal initiative”中,将greenplum db更名为“pivotal greenplum database”,将greenplum hd更名为“pivotal hd”。

相关问题