在pyspark(或spark)中,我们可以同时使用rdd和Dataframe结构。我应该选一个吗?我觉得有些工作通过rdd很容易,另一些工作通过dataframe很容易。什么是典型的编程惯例?我想我用的太多了 .rdd 以及 .toDF() .
.rdd
.toDF()
lndjwyie1#
一般建议坚持使用dataframes,因为spark可能会对数据使用更紧凑的表示,并且在处理数据时也会执行许多代码优化,而对于rdd则不会执行这些优化。在某些情况下,您可能需要返回RDD,但这种情况不应该经常发生。p、 我建议大家浏览一下databricks免费提供的learning spark 2ed,它也涵盖了这些主题。
1条答案
按热度按时间lndjwyie1#
一般建议坚持使用dataframes,因为spark可能会对数据使用更紧凑的表示,并且在处理数据时也会执行许多代码优化,而对于rdd则不会执行这些优化。在某些情况下,您可能需要返回RDD,但这种情况不应该经常发生。
p、 我建议大家浏览一下databricks免费提供的learning spark 2ed,它也涵盖了这些主题。