我有一个pyspark脚本,它使用一个pandasudftype.grouped\u map函数,该函数接收一个分组的dataframe对象,并为每个分组的对象返回一个dataframe(包含分组对象的所有行),类似于下面的代码。这是很好的,除了序列化和反序列化的数据不可能做到这一点在规模。我认为这可以通过在scala中编写类似的用户定义函数来改进,从而避免数据转换瓶颈。据我所知,scala对于Dataframe没有类似的功能。我想看看是否有人知道,是否有一个,或一个相对简单的黑客,使它在scala本地完成。
import pandas as pd
from pyspark.sql.functions import pandas_udf
from pyspark.sql.functions import PandasUDFType
@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)
def g(df):
pandas code
return results_df
output = data.groupBy('key').apply(g)
暂无答案!
目前还没有任何答案,快来回答吧!