使用databricks表(delta)和仅仅读取csv文件进行join有什么区别吗？

toiithl6 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(547)

我有一个csv文件，用于两个不同的databricks笔记本进行连接。在性能和维护方面，哪种方法更好：
使用单独的笔记本创建csv文件的databricks delta表，然后在执行连接的两个笔记本中引用databricks delta表
只要读入每个笔记本中的csv文件，并将其用于连接。

apache-spark pyspark databricks azure-databricks

来源：https://stackoverflow.com/questions/61949464/any-difference-in-using-databricks-table-delta-vs-just-reading-a-csv-file-for

1条答案

按热度按时间

yb3bgrhw1#

取决于csv文件的大小。如果它很小（很少mbs），那就不重要了。如果您想要良好的性能，大的输入最好以柱状格式存储，如parquet或delta。由于压缩和支持下推列投影（只读取需要的列）和一些过滤器，它们可以更快地读取。如果您有兴趣使用spark优化数据的读取性能，我建议您进行以下讨论：https://databricks.com/session_eu19/the-parquet-format-and-performance-optimization-opportunities

赞(0）回复(0）举报 2021-05-27

我来回答

使用databricks表(delta)和仅仅读取csv文件进行join有什么区别吗？

1条答案

相关问题

热门标签

最新问答