在select语句期间，spark reading parquet在s3上读取多少数据是正常的？

8fsztsew 于 2021-05-18 发布在 Spark

关注(0)|答案(0)|浏览(228)

我们有一个130gb和4000列的表。当我们选择其中的两列时，我们的spark ui报告总共30gbread。但是，如果我们选择这两列并将它们存储为单独的数据集，则数据集的总大小仅为17mb。考虑到Parquet地板是柱状存储，有些东西似乎不能正常工作。我发现了这个问题，但我不确定如何进一步诊断，以及如何尝试减少所需的i/o量。
据我所知，列式存储的好处是每一列都可以彼此独立地读取。
我们正在databricks上运行Hadoop2.7.x。它出现在6.x和7.x版本的databricks（spark 2.4/3.0）上

hadoop apache-spark databricks parquet amazon-s3

来源：https://stackoverflow.com/questions/64692832/what-amount-of-data-read-is-normal-for-spark-reading-parquet-on-s3-during-a-sele

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

在select语句期间，spark reading parquet在s3上读取多少数据是正常的？

暂无答案！

相关问题

热门标签

最新问答