我想将Dataset[T]转换为多个数据集Dataset[U1]、Dataset[U2]、...、Dataset[Un],其中U1到Un是不同的类型。此外,我想把它们平行地写出来。我知道如何使用对RDDS来实现这一点,并且我没有考虑分区(这意味着U1=...=Un)。怎么做呢?
Dataset[T]
Dataset[U1]
Dataset[U2]
Dataset[Un]
U1
Un
6bc51xsx1#
在使用结构化流媒体时,我发现了一个名为foreachBatch的东西:
foreachBatch
streamingDF.writeStream.foreachBatch { (batchDF: DataFrame, batchId: Long) => batchDF.persist() batchDF.write.format(...).save(...) // location 1 batchDF.write.format(...).save(...) // location 2 batchDF.unpersist() }
更多细节here。
1条答案
按热度按时间6bc51xsx1#
在使用结构化流媒体时,我发现了一个名为
foreachBatch
的东西:更多细节here。