ApachePig—将数据加载到hive中,然后使用hcatalogue分析来自pig的数据这似乎是个好主意吗?

ig9co6j1  于 2021-06-21  发布在  Pig
关注(0)|答案(1)|浏览(619)

假设我们有json数据,我们想为业务用户生成一些结果?
从hdfs将数据加载到Hive中,然后使用hcatalog对来自Pig的数据进行分析。在这方面我有以下问题。
问。从hcatalog加载数据并将其分析到pig中是否可以,这与通过将数据保存到hdfs直接从pig读取数据相比会有性能开销。

svmlkihl

svmlkihl1#

我个人更喜欢使用pig进行etl。在您的情况下,json数据可以使用jsonload加载,也可以使用jsonstorage存储。因此,我会使用jsonload加载数据,然后将它们存储在csv中。然后我会使用hive来分析这些数据。
json加载
http://joshualande.com/read-write-json-apache-pig/
另外,我们可以使用twitter elephantbird json加载程序
http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/

相关问题