有没有一种方法可以将文件写入udf中的hdfs？

aydmsdu9 于 2021-05-24 发布在 Spark

关注(0)|答案(0)|浏览(285)

我正在尝试并行蒙特卡罗模拟Spark。模拟的输入是Dataframe的分区，模拟当前在用户定义的函数中运行。udf看起来像这样：

@udf(returnType=StringType()) 
def run_simulation(str):
    import mcsim
    result = mcsim.run_simulation(str)
    return str

返回的结果是三个相当大的Dataframe的列表，我想立即将其存储为hdfs上的Parquet文件。有人知道如何做到这一点吗？我对spark是个新手，不确定使用udf是否是最好的方法。
谢谢！

目前还没有任何答案，快来回答吧！

相关问题