我有一个场景,我将逐行传递给hiveudf,并且需要对每一行执行一些验证。这些验证是使用一些按定义的元数据执行的,我需要从外部资源加载这些元数据。我的问题是,我只能在init中加载此元数据一次并将其应用于所有行。在加载时,每行的每次元数据都会大大降低性能。
krugob8w1#
除非元数据发生很大变化,否则我认为最好的办法是将元数据保存在hdfs中。在构造器中读取它,然后您就不必读取它了,除非Map程序启动了。
1条答案
按热度按时间krugob8w1#
除非元数据发生很大变化,否则我认为最好的办法是将元数据保存在hdfs中。在构造器中读取它,然后您就不必读取它了,除非Map程序启动了。