在scala列表或Map中保留多个Dataframe以进行迭代处理可以吗

jm81lzqq 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(371)

我有3个Dataframe，每个Dataframe有50列和数百万条记录。我需要对上面的Dataframe应用一些常见的转换。
目前，我将这些Dataframe保存在scala列表中，并对每个Dataframe执行迭代操作。
我的问题是，在scala集合中保留大Dataframe是可以的，还是会有任何与性能相关的问题。如果是，以迭代方式处理多个Dataframe的最佳方法是什么？
提前谢谢。

scala DataFrame apache-spark

来源：https://stackoverflow.com/questions/62675577/is-it-ok-to-keep-multiple-dataframes-in-scala-list-or-map-for-iterative-processi

1条答案

按热度按时间

这样做没有问题，因为list只是对您的Dataframe的引用，而spark中的Dataframe是lazy eval。因此，除非你开始处理任何一个Dataframe，即对它们调用操作，否则它们不会被填充。一旦行动结束，它就会被清除。因此，这将等于分别调用它们3次，因此您的方法没有问题。

赞(0）回复(0）举报 2021-05-27

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前