有人能提供一些关于apacheflink中分组数据集groupcombine的实际用例的说明吗。裁判:https://ci.apache.org/projects/flink/flink-docs-release-1.2/dev/batch/dataset_transformations.html#groupcombine-分组数据集
9cbw7uwe1#
groupcombine用于优化目的。与groupreduce不同,它不做任何数据洗牌,只在单个分区上工作。这有助于减少要发送到下一个reduce操作的数据。简单地说,这是一个局部reduce操作。如果您熟悉hadoop中的map reduce函数,那么我们也有组合器操作。Flink的这个组合的工作原理完全相同。下面是hadoop中combiner的可视化表示。希望这有帮助!
1条答案
按热度按时间9cbw7uwe1#
groupcombine用于优化目的。与groupreduce不同,它不做任何数据洗牌,只在单个分区上工作。这有助于减少要发送到下一个reduce操作的数据。简单地说,这是一个局部reduce操作。
如果您熟悉hadoop中的map reduce函数,那么我们也有组合器操作。Flink的这个组合的工作原理完全相同。
下面是hadoop中combiner的可视化表示。
希望这有帮助!