hive查询与python列表处理性能的比较

wfsdck30  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(309)

场景:我有一个python应用程序,它连接到hive数据库并提取数据,创建用于处理数据的子表,删除temp表等等。。90%的处理是使用配置单元查询完成的,配置单元查询基本上是由python代码生成的,并发送到配置单元服务器执行。
将每个查询发送到配置单元服务器并返回状态或数据所花费的时间最少。我知道有一些不可避免的情况下,数据是在Hive。
然后是配置单元查询的处理时间。
在某些情况下,当循环中有许多查询要执行时,处理每个查询会占用大量时间。
问题:如果我们假设数据大约是5万行。将5万行提取到python本身(当然这里的数据传输时间是开销)会快得多吗?比如提取到一个元组列表中,并模拟hive的连接/过滤操作,避免对hive运行10-50个查询?
这是更好的方法吗?或者我应该寻找配置单元查询优化技术。我更喜欢配置单元查询,因为它使用起来很方便。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题