我计划在hdfs目录中有多个xml文件,并将多个配置单元外部表指向该位置,然后使用配置单元xml serde解析这些xml文件,为每个表提取不同的列集。
我计划在上述配置单元外部表上并行运行一些oozie配置单元dml操作(最多15个并行操作)。我想知道将来并行执行是否会有问题,因为可能会发生对同一个xml文件的多个并发读取。
在过去,我在执行oozie并行执行(最多15个并行操作)时遇到了保存在hdfs中的keytab文件的问题。有时,oozie操作将无法读取keytab文件,而同一工作流的其他并行操作则可以毫无问题地读取keytab文件。我尝试将keytab文件的复制因子设置为10,但问题仍然可能在2个月左右出现一次。
关于如何实现这种并行化而没有问题,有什么建议吗?
暂无答案!
目前还没有任何答案,快来回答吧!