我正在使用配置单元查询我拥有的数据。问题是,这些数据需要清理,它太大了,我无法尝试在我的计算机上处理它(因此使用hadoop和hive)。有没有办法让我用Hive来做这个?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式。谢谢
62o28rlo1#
您应该使用mapreduce程序清理数据。可能连一个能提高你的表现的减速机都没有。mapreduce程序就像一个缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询。
cpjpxq1n2#
what is your data size? what is your cleaning operation?
如果您的清洁操作无法在hive的帮助下完成,那么只能使用mapreduce/pig。如果你的问题是Hive的性能,试着优化它。优化取决于您的清洁操作。您可以使用 distribution cache , map side joins 等。。。
distribution cache
map side joins
2条答案
按热度按时间62o28rlo1#
您应该使用mapreduce程序清理数据。可能连一个能提高你的表现的减速机都没有。
mapreduce程序就像一个缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询。
cpjpxq1n2#
如果您的清洁操作无法在hive的帮助下完成,那么只能使用mapreduce/pig。
如果你的问题是Hive的性能,试着优化它。
优化取决于您的清洁操作。您可以使用
distribution cache
,map side joins
等。。。