spark和hcatalog?

wbrvyc0a  于 2021-05-30  发布在  Hadoop
关注(0)|答案(3)|浏览(384)

我觉得用pig加载hcatalog很舒服,我想知道是否可以用spark代替pig。不幸的是,我对spark很陌生。。。
你能提供一些关于如何开始的材料吗?有什么spark库可以使用吗?有什么例子吗?我把所有的练习都做完了http://spark.apache.org/ 但他们正在关注rdd,不会再进一步了。。
我会很感激你的帮助。。。
当做
棘爪

qqrboqgw

qqrboqgw1#

我们的系统已经加载了这两个,我们可以使用任何一个。spark具有您正在使用的语言的特性,如scala、python等等。。。,。例如,将spark与python结合使用,可以利用spark中的许多python库。

cyvaqqii

cyvaqqii2#

您可以参考下面的链接来使用带有spark的hcatalog inputformat Package 器;它是在sparksql之前编写的。
https://gist.github.com/granturing/7201912

ecfsfe2w

ecfsfe2w3#

您可以使用sparksql来读取配置单元表,而不是hcatalog。
https://spark.apache.org/sql/
您可以使用sparkjava/scala/python语言(如filter、join、groupby)应用与pig相同的转换。。

相关问题