在select语句期间,spark reading parquet在s3上读取多少数据是正常的?

8fsztsew  于 2021-05-18  发布在  Spark
关注(0)|答案(0)|浏览(228)

我们有一个130gb和4000列的表。当我们选择其中的两列时,我们的spark ui报告总共30gbread。但是,如果我们选择这两列并将它们存储为单独的数据集,则数据集的总大小仅为17mb。考虑到Parquet地板是柱状存储,有些东西似乎不能正常工作。我发现了这个问题,但我不确定如何进一步诊断,以及如何尝试减少所需的i/o量。
据我所知,列式存储的好处是每一列都可以彼此独立地读取。
我们正在databricks上运行Hadoop2.7.x。它出现在6.x和7.x版本的databricks(spark 2.4/3.0)上

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题