使用databricks表(delta)和仅仅读取csv文件进行join有什么区别吗?

toiithl6  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(548)

我有一个csv文件,用于两个不同的databricks笔记本进行连接。在性能和维护方面,哪种方法更好:
使用单独的笔记本创建csv文件的databricks delta表,然后在执行连接的两个笔记本中引用databricks delta表
只要读入每个笔记本中的csv文件,并将其用于连接。

yb3bgrhw

yb3bgrhw1#

取决于csv文件的大小。如果它很小(很少mbs),那就不重要了。如果您想要良好的性能,大的输入最好以柱状格式存储,如parquet或delta。由于压缩和支持下推列投影(只读取需要的列)和一些过滤器,它们可以更快地读取。如果您有兴趣使用spark优化数据的读取性能,我建议您进行以下讨论:https://databricks.com/session_eu19/the-parquet-format-and-performance-optimization-opportunities

相关问题