我正在尝试并行蒙特卡罗模拟Spark。模拟的输入是Dataframe的分区,模拟当前在用户定义的函数中运行。udf看起来像这样:
@udf(returnType=StringType())
def run_simulation(str):
import mcsim
result = mcsim.run_simulation(str)
return str
返回的结果是三个相当大的Dataframe的列表,我想立即将其存储为hdfs上的Parquet文件。有人知道如何做到这一点吗?我对spark是个新手,不确定使用udf是否是最好的方法。
谢谢!
暂无答案!
目前还没有任何答案,快来回答吧!