我正在分析spark应用程序的内存使用情况。我们使用Hive和Pypark
在我们的应用程序中,我们有许多类似以下的sparksql查询。在运行查询时,我们的hivemeta存储服务器承受着很大的压力,内存不足。
磁盘缓存的存储 claim_temp
会爆炸,尽管我找不到任何额外的 cache()
声明。只需选择数据,在select结果中包含一些列,然后插入结果(声明(U温度约为300GB,将增长到1000gb)
SQL4 = """
create temp view EX as
select a.* from {0} a
inner join {1} b
on a.specialty = b.code
where classification = 'ABCD'
""".format(self.tables['Claims'],self.tables['taxonomy'])
self.spark.sql(SQL4)
self.spark.sql("""insert into {0}.results_flagged
select * from EX """.format()
create temp view语句是否向配置单元元存储添加数据?
create temp view是一个配置单元sql,它将被视为配置单元中的temp表,还是只是createorreplacetempview的替代品,它不添加任何内存?
1条答案
按热度按时间yizd12fk1#
临时视图将不会保留到元存储。。。它是与spark会话应用程序关联的对象,在应用程序结束时被终止。。。此处详细信息=>https://docs.databricks.com/spark/latest/spark-sql/language-manual/create-view.html