我得到了rdd,其中rdd的一个元素是一个大(>2gb)Dataframe的列表,每个Dataframe都有不同的结构。
我可以这样转换它们(我是列表上的项目索引)
rdd.values().flatMap(lambda x: x[i].values.tolist()).toDF()
但是,这看起来很慢,而且不使用箭头。
在这种情况下有没有办法使用箭头?
我知道我可以将代码重写为pyspark/koalas,但这需要几个月的时间。
我得到了rdd,其中rdd的一个元素是一个大(>2gb)Dataframe的列表,每个Dataframe都有不同的结构。
我可以这样转换它们(我是列表上的项目索引)
rdd.values().flatMap(lambda x: x[i].values.tolist()).toDF()
但是,这看起来很慢,而且不使用箭头。
在这种情况下有没有办法使用箭头?
我知道我可以将代码重写为pyspark/koalas,但这需要几个月的时间。
暂无答案!
目前还没有任何答案,快来回答吧!