如何有效地将pd.dataframe的rdd转换为sparkDataframe?

laximzn5  于 2021-07-09  发布在  Spark
关注(0)|答案(0)|浏览(202)

我得到了rdd,其中rdd的一个元素是一个大(>2gb)Dataframe的列表,每个Dataframe都有不同的结构。
我可以这样转换它们(我是列表上的项目索引)

rdd.values().flatMap(lambda x: x[i].values.tolist()).toDF()

但是,这看起来很慢,而且不使用箭头。
在这种情况下有没有办法使用箭头?
我知道我可以将代码重写为pyspark/koalas,但这需要几个月的时间。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题