我想知道如何将spark应用程序连接到pivotal hd,一个hadoop实现。使用spark连接到它的最佳方式是什么?
val jdbcDataFrame = sqlContext.read.format("jdbc").options( Map("url" -> "jdbc:postgresql:dbserver", "dbtable" -> "schema.tablename")).load()
hgqdbh6s1#
我知道你的问题已经被编辑过了,但我会尽力回答你所有的问题。pivotal hd(以前称为greenplum hd)是hadoop发行版,因此您应该像使用任何hadoop/hdfs发行版一样使用它。明确地:
text_file = spark.textFile("hdfs://...")
或通过Yarn运行作业,请参见:http://spark.apache.org/docs/latest/running-on-yarn.htmlgreenplum db(分布式postgres)不支持hd。例外情况是,如果您指的是pivotal hawq,它实际上是hdfs之上的greenplum db。greenplum是一家创建greenplum db和greenplum hd的公司,被emc收购。然后,emc将若干业务分组到“pivotal initiative”中,将greenplum db更名为“pivotal greenplum database”,将greenplum hd更名为“pivotal hd”。
1条答案
按热度按时间hgqdbh6s1#
我知道你的问题已经被编辑过了,但我会尽力回答你所有的问题。
pivotal hd(以前称为greenplum hd)是hadoop发行版,因此您应该像使用任何hadoop/hdfs发行版一样使用它。明确地:
或通过Yarn运行作业,请参见:
http://spark.apache.org/docs/latest/running-on-yarn.html
greenplum db(分布式postgres)不支持hd。例外情况是,如果您指的是pivotal hawq,它实际上是hdfs之上的greenplum db。
greenplum是一家创建greenplum db和greenplum hd的公司,被emc收购。然后,emc将若干业务分组到“pivotal initiative”中,将greenplum db更名为“pivotal greenplum database”,将greenplum hd更名为“pivotal hd”。