为什么sparkcontext会创建到hive metastore的大量连接并扫描所有数据库?

u4vypkhs  于 2021-06-24  发布在  Hive
关注(0)|答案(0)|浏览(194)

一个管理和监视hadoop集群的团队告诉我们,我们的spark作业(几百个)对集群有负面影响。显然,创建sparkcontext的每个作业也会自动创建到配置单元元存储的大量连接,并“扫描”所有数据库和表(请参阅下面的日志)。
在做了一些测试之后,我们发现在使用spark1.6(/usr/hdp/current/spark client)创建sparkcontext之后,我们观察到了上面描述的行为。一旦我们切换到spark2(/usr/hdp/current/spark2 client),我们就看不到任何到hivemetastore的连接。
代码如下:

from pyspark import SparkContext

os.environ['SPARK_HOME'] = "/usr/hdp/current/spark-client"
PYSPARK_SUBMIT_ARGS = " --conf spark.logConf=true --master yarn --driver-memory 25g --num-executors 50 --total-executor-cores 3 --executor-memory 25g pyspark-shell"
os.environ['PYSPARK_SUBMIT_ARGS'] = PYSPARK_SUBMIT_ARGS
sc = SparkContext(appName="my_app_name")

我们使用:hdp2.5;spark 1.6(pyspark api);Hive:1.2.1;群集管理器:Yarn
你们能解释一下为什么spark1.6会出现这种情况,以及有什么可能的解决方案(除了切换到spark2)来避免所有这些连接到hivemetastore吗?任何建议,在哪个方向挖掘是非常感谢。
我已经看过hadoop和hive配置属性,但是我不知道更改其中一个或多个是否会对我们有所帮助。我也读过hivesupport(),但我相信它只能从版本2.0开始使用。
2019-09-10 10:32:26662信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\ u all\ u databases 2019-09-10 10:32:26898 info[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db1 pat=*2019-09-10 10:32:26,902信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db2 pat=*2019-09-10 10:32:26904信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db3 pat=*2019-09-10 10:32:26,905信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db4 pat=*2019-09-10 10:32:26907信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db5 pat=*2019-09-10 10:32:26,909信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db6 pat=*2019-09-10 10:32:26910信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db7 pat=2019-09-10 10:32:26,912信息[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db8 pat=*2019-09-10 10:32:26914 info[pool-7-thread-56114]:hivemetastore.audit(hivemetastore.audit)。java:logauditevent(319))-ugi=@ip=cmd=get\u函数:db=db9 pat=
...

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题