我应该在pyspark中选择rdd还是dataframe?

egdjgwm8  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(434)

在pyspark(或spark)中,我们可以同时使用rdd和Dataframe结构。我应该选一个吗?
我觉得有些工作通过rdd很容易,另一些工作通过dataframe很容易。什么是典型的编程惯例?我想我用的太多了 .rdd 以及 .toDF() .

lndjwyie

lndjwyie1#

一般建议坚持使用dataframes,因为spark可能会对数据使用更紧凑的表示,并且在处理数据时也会执行许多代码优化,而对于rdd则不会执行这些优化。在某些情况下,您可能需要返回RDD,但这种情况不应该经常发生。
p、 我建议大家浏览一下databricks免费提供的learning spark 2ed,它也涵盖了这些主题。

相关问题