跨通用udf配置单元保存状态

dl5txlt9  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(384)

我有一个场景,我将逐行传递给hiveudf,并且需要对每一行执行一些验证。
这些验证是使用一些按定义的元数据执行的,我需要从外部资源加载这些元数据。
我的问题是,我只能在init中加载此元数据一次并将其应用于所有行。在加载时,每行的每次元数据都会大大降低性能。

krugob8w

krugob8w1#

除非元数据发生很大变化,否则我认为最好的办法是将元数据保存在hdfs中。在构造器中读取它,然后您就不必读取它了,除非Map程序启动了。

相关问题