spark流，单独处理每个输入文件并输出

f0ofjuux 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(191)

我有这样一种情况：landing folder连续地获取一组csv文件，我们需要将每个文件原封不动地与另一个引用文件连接起来，只在该文件的数据中进行一些计算（分组和排名），然后将结果数据框保存为csv文件。这意味着每个传入文件将生成一个输出文件，所有计算聚合都在该文件的数据中。
我的问题是我们如何做到这一点，我的理解是spark将把任何可用的数据放到一个Dataframe中，并对整个数据集应用转换，我们可能会丢失来自每个文件的数据，而输出文件可能包含来自不同输入文件的聚合结果。
同时，我们应该能够通过分发工作节点来处理大量传入的文件集，但主要目标是一个传入文件，我们应该创建一个输出文件，并将转换应用于该文件中的数据。

apache-spark spark-streaming

来源：https://stackoverflow.com/questions/67099639/spark-streaming-processing-each-input-file-individually-and-output

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark流，单独处理每个输入文件并输出

暂无答案！

相关问题

热门标签

最新问答