在使用yarn和tez引擎的mapr集群中,我们需要使用jdbc连接器从datastage查询hive数据。在某些情况下,由于数据的大小,我们需要增加tez容器的大小。我们在并行作业的before-sql语句中执行此操作,然后在主作业语句中查询数据。
问题是before sql语句 SET hive.tez.container.size=3000
需要数小时,但对数据的查询运行正常(几秒钟)。
这是否与当时集群有多忙有关?队列中有很多工作??不要这么认为,因为它总是在set语句中崩溃,而在select语句中却从不崩溃。提前谢谢!
1条答案
按热度按时间yzuktlbb1#
我建议使用ibm提供的HiveJDBC驱动程序和HiveConnectorStage,它允许通过内置的stage属性设置配置单元参数。
当datastage作业运行缓慢时,可能有几个原因,从您所说的,在sql语句之前设置hive.tez.container.size=3000需要几个小时,我建议在运行datastage作业时查看hive db端。
如果您没有使用ibm提供的hivejdbc驱动程序,那么最好使用第三方hivejdbc驱动程序的官方支持来启用jdbc驱动程序跟踪。