假设我们有json数据,我们想为业务用户生成一些结果?从hdfs将数据加载到Hive中,然后使用hcatalog对来自Pig的数据进行分析。在这方面我有以下问题。问。从hcatalog加载数据并将其分析到pig中是否可以,这与通过将数据保存到hdfs直接从pig读取数据相比会有性能开销。
svmlkihl1#
我个人更喜欢使用pig进行etl。在您的情况下,json数据可以使用jsonload加载,也可以使用jsonstorage存储。因此,我会使用jsonload加载数据,然后将它们存储在csv中。然后我会使用hive来分析这些数据。json加载http://joshualande.com/read-write-json-apache-pig/另外,我们可以使用twitter elephantbird json加载程序http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/
1条答案
按热度按时间svmlkihl1#
我个人更喜欢使用pig进行etl。在您的情况下,json数据可以使用jsonload加载,也可以使用jsonstorage存储。因此,我会使用jsonload加载数据,然后将它们存储在csv中。然后我会使用hive来分析这些数据。
json加载
http://joshualande.com/read-write-json-apache-pig/
另外,我们可以使用twitter elephantbird json加载程序
http://eric.lubow.org/2011/hadoop/pig-queries-parsing-json-on-amazons-elastic-map-reduce-using-s3-data/